Predictive Analytics – Methoden, Vorgehen, Produkte



predictive analytics methoden vorgehen und produkte eigentlich war der geplant zusammen mit volker hinz aber der musste leider kurzfristig ausfallen daher werde ich den hier kurz alleine vorstellen mein name ist artus kronberg ich bin geschäftsführer der music gmbh und juniorprofessor an der universität paderborn für analytische informationssysteme und wir werden uns heute ein klein bisschen damit beschäftigen was steht eigentlich hinter diesem begriff predictive analytics und schwerpunktmäßig dann wo ist der business mehrwert von predictive analytics wie können wir predictive analytics im unternehmen einsetzen was wir verschiedene möglichkeiten haben wir da um uns dann anschließend auch noch an zu schauen welche werkzeuge stehen uns da eben auch speziell auf der microsoft plattform zur verfügung sowohl eben im on premises bereich als auch eben im cloud bereich um dann kurz noch mal zusammenzufassen was eben im aktuellen projekt geschehen wichtig ist wenn sie eben project phoenix projekte selber aufsetzen als endverbraucher um eben ihren geschäfts mehrwert zu erhöhen dazu kurz vorab die umfrage wer von ihnen kennt bereits die analyse services data mining komponenten aus dem sql server mal kurz die die hand hoch und so ein drittel der von ihnen hat damit auch tatsächlich schon länger gearbeitet sie auch schon mal ausprobiert wer von ihnen kennt zumindest die klassischen power bi-anwendungen wechsel in all seinen facetten wahrscheinlich dann ja genau sehr schön das ist doch gut darauf können wir aufbauen da kann ich ihnen zeigen was man eben aus excel heraus an zusätzlichen dingen machen kann und was wir dann eben wie gesagt auch weiter in der cloud zeigen können aber vorab noch einmal ganz kurz dazu warum handelt es sich eigentlich bei predictive analytics und wofür wollen wir das ganze eben einsetzen vorab schon mal wer von ihnen setzt dem unternehmen bereits predictive analytics entweder für die eigene firma oder für kunden ein und um ok doch auch schon genau es gibt sie dann doch genau unterhalten wir das erst auch mal kurz für die allgemeinheit darüber was wir von microsoft also eben wie vor nötig darunter verstehen wenn es um predictive analytics geht und da halte ich die die definition wie man sie zum beispiel auf der wikipedia findet für ganz brauchbar es geht im wesentlichen darum dass wir vorhersagen für zukünftige ereignisse machen wollen oder eben uns unbekannte ereignisse wie zum beispiel die der absatz von regenschirmen morgen hier in münchen wenn das wetter spontan umschlägt oder klassisch im sales forecasting oder von kreditkartenbetrug und was wir dafür eben nutzen sind die historischen daten die meisten von ihnen werden bereits wahrscheinlich und ein data warehouse project wenn der eigenen firma betreuen oder bei kunden betreuen und manchmal kommt ihm die frage auf was machen wir denn mit den ganzen daten gewesen gesammelt integriert und aufbereitet haben und die antwort ist natürlich wir nutzen diese daten um vorhersagen zu bauen um daraus halt eben review und andere business opportunities zu generieren technisch ist das ganze leider etwas komplizierter die methoden die wir benutzen kommen eben aus dem bereich statistik mathematik maschinelles lernen und was sie dann machen sollen damit sind solche dinge abstrakt wie irgendwelche pattern irgendwelche versteckten muster in diesen daten extrahieren um diese dann anzuwenden und vorhersagen zu generieren ziel des ganzen ist es natürlich damit eben ein geschäftsvorteile zu erzielen oder zumindest eben nicht hinter die konkurrenz hinterher zurückzufallen die ebenfalls bereits auftritte analytics techniken aufsetzt dazu sollten wir uns natürlich konkret auch anschauen was kann man eigentlich jetzt mit predictive analytics in bezug auf business by spieler machen wo können wir das ganze einsetzen und auch wenn sie das vielleicht noch nicht unter dem stichwort produktiv analytics kannten die einzelnen stichworte werden sie wahrscheinlich schon mal gehört haben in klassischer anwendungsfall zum beispiel ist eben die front detektion wenn eben täglich bei ihrem payment prozessor zum beispiel kreditkartentransaktionen von ihnen abgewickelt werden und der payment processor entscheiden muss ist das eine kreditkarten transaktionen die durchgewinkt wird die einfach gebucht wird oder ist es eben so ein fall von kreditkarten transaktionen bei dem man dann eben zum hörer greift versucht den kunden zu erwischen und dann zu fragen michael warst du wirklich gestern gleichzeitig in hongkong und hat dort elektronik für 5000 euro eingekauft und hier in münchen und hast dich auf die konferenz vorbereitet das ist so klassische anwendungsfälle die sie wahrscheinlich selber kennen aber das ist natürlich nicht nur auf kreditkarten beschränkt aber eben ein prägnantes beispiel ein weiterer klassiker auch in diesem umfeld von customer 360 grad ist die turn erkennung wenn man also aus den datenbeständen und den veränderungen im kundenverhalten erkennen möchte ob dieser kunde abwanderungs gefährdet ist ob er die geschäftsbeziehung zu uns einstellen will ob er vielleicht eben schon mit einem fuß beim mitbewerber kauft seine dienstleistungen bezieht und die idee wäre hier an der stelle rechtzeitig zu erkennen dass dies bei dem kunden bevorsteht denn meistens ist ja die akquise von neuen kunden deutlich teurer als das eben behalten von bereits gut gepflegten kundenbeziehung wir können aber auch noch einige andere sachen machen drüben im nachbarraum wird gerade vorgestellt wie man soziale netzwerke nutzen kann um zum beispiel sentiment mining zu betreiben um zu erfahren wie denn die meinung von endverbrauchern zu bestimmten produkten oder eben zum markenlabel aussieht oder eine technologie mit der ich mich auch selber mehr beschäftigt habe empfehlungssystem die sie beispielsweise von amazon kennt den kunden die dies gekauft haben kauften auch um eben aus historischen kauftransaktionen zu ermitteln was wahrscheinliche produkte sind die sie selber eben auch mögen mit den unterschiedlichsten anwendungsfälle seien es nun kontaktvorschläge bei linkedin oder eben konkret bei herstellern wie zb zalando produkte die ihnen für ihren warenkorb empfohlen werden daneben haben natürlich auch das gebiet des advertisings also besonders internetwerbung wo man ermitteln welcher kunde kriegt tatsächlich auf welche at oder insbesondere eben im b2b bereich und im amerikanischen bereich auch im business to customer bereich beliebt pricing analysis was ist der preis den markus bereit ist für den kaffee heute zu bezahlen können wir so noch ein paar cent auf schlagen hoch euro oder müssen wir eher im preis ein kleines bisschen nachgeben das sind verschiedene beispiele in denen wir predictive analytics einsetzen können ein weiteres noch für den was uns im täglichen leben immer wieder begegnet eben die wettervorhersage und da sieht man eben auch dass ich da am anfang immer noch sehr schwer getan wurde die vorhersagen was soll's ich dass ich noch ein kleines kind war es im prinzip so wenn man nun den wetterfrosch betrachtet im fernsehen oder den im glas dann war die vorhersage güte nicht groß unterschiedlich aber heutzutage ist gerade der kurzfrist die kurzfrist prognose im bereich von drei tagen extrem zuverlässig geworden da sieht man ihm auch wie man dazugelernt hat die frage ist nun wie schlägt sich das halt eben in business mehrwert nieder und da gibt es eben auch einige ich denke mal sehr erfolgreiche anwendungsbeispiele die eben auch ganz offen zeigen wie man damit geld verdienen kann wenn man nun predictive analytics einsetzt wer von ihnen war schon mal in las vegas dann kennen sie vielleicht das berühmte heraus ist der größten und umsatzstärksten casinos die haben tatsächlich ein sehr genaues modell ihren kunden wieder zu erkennen und den kunden ein customer lifetime value zu verpassen für den kunden zu schätzen was ist dieser kunde bereit heute und in zukunft auszugeben und darauf basierend entscheiden die dann welches zimmer sie bekommen welche weiteren extras sie bekommen damit eben die kunden die einen hohen lifetime value haben auch sich entsprechend extrem wohl fühlen und andererseits halt eben auch nicht unnötig den kunden investiert wie zum beispiel wie ich immerhin gehen und dann fünf dollar verspielen um sagen zu können ja ich war auch in las vegas ich habe es versucht aber das glück muss in anderen bereichen liegen und was wir wahrscheinlich genauso gut kennen auch ein sehr erfolgreiches beispiel der telefon der der telekom markt also customer journey kunden die wechseln wollen also hier in dem fall für sprint aber auch in deutschland bei allen telcos mittlerweile als standard man versucht zu erkennen wann wollen sie wechseln um ihn vorher halt noch zu sagen ja wollen sie nicht auch noch ein bisschen bleiben um ihn incentives zu geben damit sie länger hier sind amazon ist gerade im bereich der empfehlungstechnologie immer noch marktführer die behaupten tatsächlich dass sie sogar schon vor zwei jahren ein drittel des kompletten umsatzes der webseite nur über diese kleinen lustigen navigationshilfen betreiben die ihnen vorschlagen welche produkte auf ihren konkreten warenkorb oder allgemein auf ihrer kaufhistorie passen können und zum einen zeigt es natürlich den nutzen schneller zu navigieren denn 35 prozent werden wohl kaum zusätzliche cells sein sondern es wird auch eine navigationshilfe darstellen warum mühsam über irgendwelche menüs zu klicken wenn direkt in dem kleinen kontextmenü steht haye für den warenkorb passt doch eigentlich als nächstes produkt dieses item zu dem handy das ladegerät oder den schönen adapter für die stereoanlage aber natürlich auch klar wichtig im handel die möglichkeit eben das absenken des cross sellings mehr produkte eben zu verkaufen und höherwertige komponenten dann nochmal zurück zum thema fraud detection da gibt es sogar die amerikanischen steuerbehörden die das interne system die sich anschauen wer tatsächlich bei der steuerberechnung wahrscheinlich ein klein wenig daneben gegriffen hat bei den zahlen die er angegeben hat muss ich eben anzuschauen wie man etwas näher auf die finger klopfen kann hp behauptet hier wurden 66 millionen gespart ebenfalls claims abwicklung und wie seit den bereich payment processing hatte ich ihnen ja bereits vorgestellt und als ziemlich fans die anwendungen gibt es ibm watson der nicht nur auf business probleme angewendet wird sondern der auch die partie gewonnen hat hier sieht man also tatsächlich wie viel geld jeweils in diesen ganzen anwendungen stecken kann und was man sich danach eben auch noch anschauen sollte ist die frage wie das nun konkret gemacht wird was wir tatsächlich benutzt um diesen business mehrwert zu generieren und da habe ich ihn jetzt drei beispiele mitgebracht und das erste dieses customer insight kasten mal 56 die bei dem es darum geht wenn man so vom klassischen kundensegment ihren was man schon seit im prinzip jahrzehnten macht immer mehr zu einem vollständigeren customer profiling hingeht wir haben nicht mehr die demografischen daten über den kunden sein wohnort sein geschlecht sein ehe zustand sein alter sondern wir wissen jetzt tatsächlich wesentlich mehr wir können über externe dienstleister dazu kaufen wie nun das gebiet in dem er wohnt keine geo daten wie das entsprechend zu bewerten ist wir können den prinzipien von geomarketing datenquellen anzapfen wir haben nun die möglichkeit zu entscheiden ist es ein entsprechend wohlhabender kunden alleine auch in basieren auf seinen umsätzen sondern als einen basierend auf seiner postleitzahl und eben seine adresse wenn man jetzt zum beispiel in hamburg sitzt irgendwo blankenese wird man wahrscheinlich etwas andere zahlungskonditionen und produkte empfohlen bekommen als wenn man jetzt in einem etwas einkommensschwächeren gebiet sitzt was wir aber jetzt eben auch können sind wesentlich mehr zusätzliche informationen die wir heranziehen können die wir vorher noch nicht nutzen können ein beispiel zum beispiel die dass webseiten nutzung verhalten wie inter ergeht der kunde wenn wir in shop haben oder wenn wir eben ob eine webseite betreiben mit unserer webseite wie exzessiv nutzt er sie oder eben auch im fall von sozialen netzwerken wie aktiv ist er wie äußert er sich und vor allem wie äußert er sich natürlich über unsere produkte und dienstleistungen das können wir mittlerweile alle scrollen und das können wir mittlerweile eben auch genauso integrieren zu einem customer profiling und die die von ihnen im handel unterwegs sind wissen der beste indikator den wir tatsächlich für das profiling nutzen können ist die eigentliche transaktions historie wenn wir also wissen dass die kunden in der vergangenheit gekauft haben können wir daraus sehr gut abschätzen was sie wahrscheinlich in zukunft auch kaufen werden also für welche produkte sie eine entsprechende affinität haben aber wir können uns natürlich auch über diese entwicklung dieser historie abschätzen in welchem zustand ist customer lifetime cycles sich der kunde gerade befindet und wenn wir dann eben ein solches profiling weiter getrieben haben mit diesen ganzen datenquellen die wir eingesetzt haben haben wir dann natürlich die möglichkeit auf die instrumente zurückzugreifen wie ich ihn vorher schon geschildert habe wir können jetzt eben hingehen können uns im bereich des cross-selling eingehen zu positionieren die produkte anzubieten die er bisher eben noch nicht gekauft die aber auch für ihn von interesse sein können wir können versuchen ihnen durch upselling auf höherwertige produkte zu verwandeln oder eben im sinne von next best action sachen vorzuschlagen die ihm sonst eben gefallen wir können auch das ganze natürlich für klassische print oder e mailing kampagnen nutzen also target mailing als stichwort aber wir können das natürlich auch benutzen um zum beispiel vorherzusagen ob ein kunde ein bestimmtes produkt was er gekauft hat wahrscheinlich wieder zurückschicken wird oder nicht das an die frage okay wenn wir jetzt wissen dass der kunde ein produkt zurückschickt was haben wir davon als business mehrwert zum einen können wir natürlich ihm die daumenschrauben an drehen können sagen okay wir ändern die zahlungsmodalitäten bitte jetzt nur noch per vorkasse aber wir können das natürlich auch positiv unterstützen wir können auch sagen dieses eine produkt ist das produkt was du wahrscheinlich zurückschickt wahrscheinlich liegt es daran weil es die falsche größe für dich hat du kaufst war sonst schuhe immer in 36 aber dieses eine paar alle anderen die 36 sonst gekauft habe auch in 38 gekauft wir können das also mit einer empfehlungs komponente zum beispiel kombinieren die ihm sagt er hier vielleicht eine andere größe eine andere farbe oder eben komplett anderes produkt und so greifen diese ganzen analytischen komponente neben ineinander trendiction oder customer retention darum haben wir auch schon gesprochen wir können erkennen dass sich der kunde eben in seinem lebenszyklus weiter entwickelten dass wir da gegebenenfalls eingreifen müssen daneben haben wir als einen komplett anderen anwendungsfall zum beispiel den versicherungsbereich hier wollen wir natürlich schauen ob wir unser risiko ein klein wenig besser modelliert bekommen was wir da machen können wir können jetzt zum beispiel über diese klassischen big data anwendungen wenn wir nutzen die ganzen volltexte die bisher irgendwo auf micro fisch gelagert sind ein lesen wir können sie digital aufbereiten mit ocr mit also optischer character recognition und haben dann tatsächlich vor textdokumente wieder zur verfügung wie sie beispielsweise beim beantragung prozess genutzt wurden wir wissen jetzt also was ich zum beispiel im rahmen einer berufsunfähigkeitsversicherung beantragung angegeben habe welche ärzte reports es gab welche krankheitsbilder angegeben werden mussten um danach über die retrospektive die 50 60 jahre die wir diese daten schon rückwirkend wieder herstellen können dann wesentlich genauer modellieren zu können was sind tatsächlich krankheits indikatoren und prognosen die am ende zum beispiel zu einem versicherungsfall führen gerade im bereich der berufsunfähigkeitsversicherung ist es klar wenn jemand leiden am rücken hat ist es wahrscheinlich ein ausschlusskriterium aber das erlaubt uns tatsächlich auch wenn wir diese ganzen volltexte kennen und in beziehung zueinander setzen können wesentlich von granularer zu entscheiden und eben in diesem prozess dass das risiko dass der versicherungsanbieter hat ein klein wenig besser einschätzen zu können um damit natürlich auch entsprechend mehr gewinne zu generieren was wir auch machen können in dem bereich als ein konkretes beispiel wir können in segmenten wie zum beispiel für circa für für automotive zum beispiel auch mit dem betrug besser einschätzen was man da zum beispiel heranziehen kann sind zum einen diese klassischen geo special daten wenn wir wissen wo dinge passiert sind wir haben entsprechend schwerpunktbereiche aber was wir jetzt eben auch machen können dafür über big data auf wesentlich mehr daten zugreifen können und auch wesentlich mehr daten tatsächlich auch verarbeiten können wir können uns anschauen wer interagiert in diesen ganzen claims in diesen ganzen schadenmeldungen miteinander und dann stellt man fest dass bestimmte personen regelmäßig miteinander in unterschiedlichen konstellationen unfälle haben und hatten dort ein indikator der einem zeigt hier könnte es sein dass dieses netzwerk von personen dazu führt dass hier eine höhere betrugs wahrscheinlichkeit ist das entlastet dann auf der einen seite mit können unkritische schadenmeldungen entsprechend weiter priorisieren die können einfach durchlaufen und entsprechend kritische schadenmeldungen die einen hohen betrugs chor haben können wir uns besser und gezielter anschauen das beschleunigt den ganzen prozess und wenn wir dann halt eben noch die entsprechend digitalen dokumente haben finden wir eben auch weitere indikatoren wesentlich schneller das hilft natürlich auch hier wiederum eben zeit zu sparen und natürlich auch um entsprechend geld einzusparen ein anderer anwendungsfall als weiteres und letztes konkretes beispiel ist productive maintenance wie geht es jetzt ausnahmsweise mal nicht darum den kunden zu modellieren sondern hier geht es schwerpunktmäßig darum um komplexere maschinen zu modellieren zum beispiel autos windkraftwerke all diese dinge die heutzutage eben 1000 einen unterschiedlichen sensoren haben da kennen sie wahrscheinlich von aus dem klassischen warehousing die einfache möglichkeit man kann sich anschauen welche komponente fällt überhaupt noch häufigsten aus das können sie heute schon klassischen reporting erledigen sie haben irgendeine maschine zum beispiel unser windkraftwerk und schauen uns an welches teil fällt der machen fällt den am häufigsten aus wir können aber darüber hinaus noch wesentlich mehr eben mit den methoden des predictive analytics wir können uns darüber hinaus noch anschauen wer ist denn tatsächlich schuld dass dieses teil regelmäßig ausfällt und stellen wir fest okay es war ein bestimmter produktions lauf einer bestimmten maschine die unter unglücklichen parametern gelaufen ist und damit wissen wir auch gleich das noch verschiedene andere maschinen gefährdet sind verschiedene andere windkrafträder aus dem die gleichen teile verbaut sind wir können also dem dem ganzen etwas mehr an den einen kern heranrücken und natürlich können wir auch noch eine sache machen wir können diesen ganzen ausfall vorgang selber eben modellieren um uns zu entscheiden wann tritt überhaupt ein fehler auf und was sind die hauptursachen für diesen fehler zum beispiel im bereich kfz können sie sich vorstellen dass bestimmte belastung dadurch entsteht wenn sie ihr auto starten ganz besonders eben kalt starts gegenüber am start dann haben sie natürlich noch solche sachen wie die klassische leistung die sie abrufen je nachdem wie stark sie das gaspedal betätigen werden die komponenten entsprechend unterschiedlich genutzt oder eben auch allein die die nutzungs reichweite und so können sie sehr komplex für das gesamtsystem aber eben auf die einzelnen systeme modellieren unter welchen bedingungen und wann sie ausfallen um eben dann zu entscheiden wie weit sind sie schon eben in diesem prozess und das ermöglicht ihnen dann tatsächlich am ende hin zu gehen um nicht mehr große rückrufe auf alle produkte fahren zu müssen sondern um sich bestimmte produkte konkret anschauen zu können und sagen hier ist jetzt eben eine präventive wartung notwendig das hilft natürlich auch wenn man weiß welche komponenten betroffen sind und wann die ausfallen wie man diese weiterentwickeln muss damit eben das ganze produkt in der nächsten situation besser wird und als neues geschäftsmodell ermöglicht ist natürlich auch selber besser als garantie anbieter auftreten zu können hier können sie selber als hersteller sagen gut wir kennen unsere ausfallwahrscheinlichkeiten wir können die abhängigkeiten ganz gut modellieren und damit sind wir jetzt selber in der lage eben auch eine garantie in gewissem umfang auf dieses produkt anzubieten ok dann für den zweiten teil des vortrags suchen uns an welche verschiedenen werkzeuge wir haben und was bei all diesen werkzeugen natürlich wichtig ist sind verschiedene analytische modelle und algorithmen die die eigentliche rechenarbeit machen und wer von ihnen kennt einige der werkzeuge vielleicht regressionsanalyse oder pflaster analyse doch schon einige und da wollen sie einfach einen gewissen mindestumfang im prinzip haben sie wollen für den bereich der segmentierung algorithmen haben eben gute cluster algorithmen sie wollen klassische regressionsanalyse haben sie wollen vernünftige klassifikations algorithmen haben solche mögen sie vielleicht eine support weg tormaschine die aktuell on premises musik ist aber noch fehlt aber wir werden uns nachher anschauen wo sie dann auch nachgerüstet werden kann und wo sie dann auch tatsächlich bestandteil des ganzen ist oder sie wollen komplexe times series for cars zu machen hier haben sie also ein gewisses repertoire an algorithmen was sie eben erwarten was sie brauchen aber wahrscheinlich wissen sie auch selber dass der algorithmus selber nicht ausreichend ist auch noch mehr wir brauchen im wesentlichen eine komplette umgebung in der wir entwickeln können in der wir uns die daten anschauen können in der wir die daten hin eben beziehung setzen können wir modellieren können was wir eigentlich vorher sagen wollen was unser ziel der vorhersage ist was die möglichen input faktoren sind um danach eben diese verschiedenen modelle die daraus entstehen auch bewerten zu können und natürlich dann wenn wir sie für gut befunden haben wie zb unser customer scoring modell oder unsere fraud detection modell um sie dann eben auch produktiv dem kunden zur verfügung zu stellen da haben wir natürlich im on premises bereich den sieg server und konkret die analyse services das sehr umfangreiche plattform mit verschiedenen algorithmen die hier auch aufgeführt habe ihm von regression klassifikation segmentierung breites set dabei haben und natürlich auch eine entsprechend umfangreiche entwicklungsumgebung visual studio liegt ich ihn nachher auch noch zeigen werde und die auch gut geeignet ist um die modelle dann zum beispiel über data mining extensions eine sql artige abfragesprache aus bestehenden anwendungen heraus entsprechend abzufragen um das ganze dann aber auch eben etwas komfortabler handhaben zu können gibt es dann eben die data mining add-ins für xl da haben sie dann die möglichkeit diese ganze funktionalität die sie im sql server haben fernzusteuern aus dem ihnen wahrscheinlich wesentlich bekannteren wesentlich vertrauten werkzeug nämlich eben aus excel sie empfiehlt die möglichkeit algorithmen auszuwählen datensätze auszuwählen modelle zu bewerten und eben tatsächlich auch modelle abzufragen und produktiv einzusetzen und das werde ich ihnen jetzt einmal kurz vorführen dazu begeben wir uns zuerst ins visual studio wer von ihnen hat schon mal analyseservice das projekt geöffnet hand hoch sehr gut genau und da wird ihnen wahrscheinlich auch bekannt vorkommen die klassische multidimensionale analysis services sich das wäre mit ihr kein tablet projekt werden jetzt noch ein altes oder neues eben multi der menschen projekt und wir legen natürlich genauso unsere data stores an wir haben unseren data stream mit dem wir uns auf bestimmte tabellen beschränken aber das was sie jetzt machen wir bauen keinen cube sondern wir bauen eben eine mining structure mining structure ist das äquivalent zu einer tabelle im multi dimensionalen bereich denn wir können in der mine instructor auswählen was sind die daten die wir für den jeweiligen fall vorliegen haben wir sind die daten aufgebaut und aus welcher datenquelle kommen sie her hier in dem fall sind die daten für eine target mailing kampagne wir haben hier eine sequenz nummer die mit einem kunden verbunden ist wir haben entsprechend attribute die wir zu den kunden gesammelt haben zum beispiel geografischer attribute wo kommt der kunde her wir haben weitere attribute wie zum beispiel seinen kunden alter und insgesamt hat man sich die mühe gegeben und über 400 verschiedene attribute ermittelt und am ende hat man natürlich auch entsprechende ziel attribute man möchte wissen ob der kunde auf eine bestimmte medienkampagne geantwortet hat oder eben nicht wir haben wir aber doch sehr viele unterschiedliche attribute und was wir hier in dieser menge struktur machen können wir können das auf die zumindest weniger attribute einschränken die uns für den fall jeweils interessieren das können wir auch tatsächlich verbessert vor und versuchen das sind welche attribute sind relevant und in der praxis bedeutet das natürlich entsprechend nacharbeit wir müssen selber eben frauen wie können diese attribute neu kombiniert werden wir können diese attribute aufbereitet werden aber für den ersten fall können wir uns eben eine kleinere menge von attributen vor selektieren wir sind wir von den 400 dann auf eben er in der größenordnung von 50 modellen von 50 50 attribute runter und nachdem wir nun diese attribute ausgewählt haben haben wir die möglichkeit verschiedene algorithmen auszuwählen die für die modellierung unsere sachverhalts gelten da haben wir zum beispiel hier zwischen trier algorithmus der verschiedene input attribute bekommt das sind die attribute die uns für diese vorhersage zur verfügung stehen alles in dem fall wird den kunden und seinen transaktionsvolumen transaktions verhalten beschreibt und am ende haben wir halt verschiedene verschiedene ziele die wir uns anschauen wollen wir wollen uns anschauen hat der kunde geantwortet auf dieses mailing und welchen umsatz haben wir dann mit dem kunden gemacht nach diesem mailing und was man also hier gemacht hat werden vorher eine sehr sehr große menge von attributen in dieser basisdaten tabelle wir haben diese menge von attributen jetzt eben auf ein beherrschbares maß eingedampft und wir haben dann anschließend die möglichkeit auf diesen daten entsprechend zu modellieren was sind daten die unser algorithmus zum lernen verwenden darf diesen eben alle als input markiert und wir können uns überlegen was ist das ziel unserer modellierung wir wollen natürlich wissen hat der kunde am ende gekauft und natürlich wie viel hat der kunde gekauft dann haben wir die möglichkeit bestimmte algorithmen hinzuzufügen um dieses problem zu lösen ich kann hier eben aus dieser ganzen palette der sql server algorithmen auswählen welche für mich relevant sind und ich habe mich hier erstmal entschieden das ganze mit wissen des antriebs zu modulieren bei deren ergebnis entsprechend auch für mich als entscheider zu verstehen ist und wenn wir uns das modell dann entsprechend anschauen in dem über 100.000 datensätze mit mehreren spalten das dauert in der aufbereitung ein wenig deshalb habe ich das vor berechnet dann können wir uns anschauen welches die attribute sind die in dem fall für diese entscheidung ob der kunde auf unsere anschreiben antwortet oder wenn ich antwortet die interessantesten sind und in dem fall sind es überwiegend erazo wissens wie fancy analysis attribute wir haben uns angeschaut sind indikatoren wann hat der kunde zuletzt interagiert und mit welcher bestimmten art von mailing wie das für den business process dann auch zu erwarten gewesen wäre und wir sehen dann auch das hier zb in diesem kleinen knoten fast nur kunden sind die eben nicht geantwortet haben wenn ich hier in diesem cluster schon heftig auch kunden zu finden sind in diesem kleinen blatt kunden zu finden sind die bereits auf die mailing kampagne geantwortet haben so kann man quasi wie in entscheidungs regeln herunter durch den datenbestand navigieren und wir können uns natürlich auch eine entsprechend grafische auswertung präsentieren lassen die uns an zeigt wie gut das ganze modell ist dazu wähle ich dann aus wie das ganze eben für validierungs daten funktioniert ich habe auf einen datensatz das modell trainiert und wähle auf einem anderen datensatz die die auswertung und kann mir dann anschauen ob tatsächlich dieser datensatz besser als der zufall vorhersagt wie sich meine kunden verhalten das sollte eigentlich der fall sein die maschine hat wurde ein klein wenig schluckauf nachdem ich heute vormittag noch fleißig gebastelt habe okay wir sehen hier die blaue linie dass wir ein zufälliges modell wenn wir jedes mal raten würden ob der kunde tatsächlich nur auf unsere mailing kampagne antwortet oder nicht wir sehen dass die drei modelle die wir gebaut haben in der performance deutlich über diesem zufälligen modell liegen aber wir sehen auch dass sie noch lange nicht perfekt sind das wäre der rosa farbene score dem wir erreichen können das wäre wenn wir immer sofort wüssten welcher kunde antwortet und das ist eben so dass das ziel was man eben im projekt analytics bereich haben möchte man möchte ihm geht es mal ein besseres modell was ich dann eben immer weiter an eben das perfekte modell annähern das ganze gibt es natürlich auch in benutzerfreundlich aus excel als data mining add-ins beschäftigen sich auch mit der mit der tour sicht auf das ganze hier haben wir dann die möglichkeit wenn wir die daten als tabelle formatiert haben über diese analyze table rippen nach den key influenza zu suchen wenn mich hier zum beispiel interessiert was sind die hauptfaktoren für kauft ein fahrrad ja nein dann liegt das modell tatsächlich selber los man sagt okay die wesentlichen faktoren sind für nein zum beispiel hat bereits zwei autos dann interessanterweise auch wenn die person verheiratet ist und wenn die personen in nordamerika lebt hingegen wenn die person noch kein auto hat oder wenn sie single ist oder wenn sie nur ein auto hat oder wenn sie aus dem asiatisch pazifischen raum kommt dann haben wir hier eben ermittelt durch einfache statistische methoden indikator dafür dass die person eben ein fahrrad kaufen in diesem beispiel aber wir können natürlich auch die komplette funktionalität nutzen die wir eben in den visual studio angeschnitten haben wir haben die möglichkeit zum einen natürlich für uns die daten näher anzuschauen aber wir können auch eben modelle bauen die tatsächlich hier zum beispiel die die kunden entsprechend klassifizieren wie das eben auch gemacht wenn wir zum beispiel die bayer eigenschaft uns anschauen und wollen uns unterscheide anschauen ob der kunde ein fahrrad kauft die spieler brauchen wir nicht das sind nur die kundennummern dann hab ich ihr die möglichkeit mittels eben weniger klicks aus einem mir bekannten user interface mehr anzuschauen was denn hier zb die die wesentlichen faktoren sind und jede sieht man auch gleich dass der baum den ich ausgewählt habe viel zu einfach ist hier habe ich also nicht genügend parameter spezifiziert und denn das modell sagt mir okay ist es lediglich abhängig davon ob die person bereits zwei autos hat dann kaufte sie überwiegend nicht hier unten wenn sie zwei autos hat dann kauften überwiegend nicht und wenn sie zwei autos hat dann kauf zu überwiegend ja nein genau die frage die gerade kam ist das was hier gerechnet wird lokal in excel gerechnet oder wird es tatsächlich über die analysis services im hintergrund gerechnet und auch wenn es hier auch das würde alles in excel passieren die eigentliche arbeit erledigt für sie der sql server im hintergrund der natürlich auf ihrer maschine liegen kann aber der natürlich auch ein zentraler infrastruktur server oder eben cloud-dienst sein kann das habe ich ihnen eben nicht gezeigt man kann es jedoch hier entsprechend einstellen in diesem tempel tool kann man eben sagen 'das ist die verbindung zu dem sql server der dann die arbeit macht und hier haben sie denn die möglichkeit tatsächlich all die daten zu übertragen an den server der berechnet sie und sie kriegen die ergebnisse wieder zurück sie haben auch genau sie haben auch die möglichkeit nicht nur die daten aus excel zu übertragen sondern excel auch komplett zur fernsteuerung zu verwenden sie können direkt die daten die im sequel server sind aus excel auswählen als datenquelle und auf diesen daten kann er dann das modell bauen und sie können lediglich die ergebnisse dieses modells spricht die vorhersagen abrufen nach excel oder eben auch wiederum in eine andere quelle sie muss ihr die möglichkeit quasi excel als frontend zu benutzen oder eben excel auch als datenquelle zu benutzen das ist natürlich der eine weg also on prämissen wenn sie jetzt an ihren gut das gibt es seit 2005 im sql server so in der schicken form und von 2000 hatten wir entsprechend algorithmen im sql server mit denen wir data mining modelle bauen konnten gibts da auch was neu ist und die antwort ist er natürlich gibt es da was neues und wir sind übrigens die ersten die darüber berichten dürfen dass er uns mit kam in der letzten woche und abgesehen von einer anderen ankündigung im letzten von microsoft ist es hier auch europaweit das erste die erste präsentation dieser dieser technik das gibt es natürlich auch als cloud service in escher und je heißt es dann sml wobei ml für machine learning steht das ist der algorithmischen hintergrund des ganzen ein hinweis bitte das ist ein very early preview das eigentliche offizielle airlines mit und die möglichkeit sich zu registrieren erfolgt eigentlich als nächsten monat also wir haben hier das äquivalent zu einer alpha oder beta version die wir hier eben testen können ich habe die screenshots freitag angefertigt dann stand hier oben noch projekt passe heute steht er schon ml studio entwickelt sich rasch der name es eben auch neu was wir hier haben ist eben eine cloud-basierte umgebung in der wir daten die wir in die cloud geladen haben eben kostengünstig ohne dass wir in extra kaufen müssen ohne dass wir extra infrastruktur bereitstellen müssen analysieren können wir können die in der oberfläche die ähnlich wie integration services aufgebaut das werk and integration services nicht geht sehr gut ähnlich aufgebaut ist wie integration services die komponenten die wir haben wollen einzeln zusammenklicken und nutzen und können natürlich das ganze eben auch über eine nutzungs basierte und volumenbasierten abrechnung entsprechend steuern und wir haben hier natürlich auch die möglichkeit diese ganze nennt ergebnisse die wir produzieren diese vorhersagemodelle als web service bereitzustellen um sie dann und unseren nutzern zur verfügung zu stellen das in kürze zum sprechtext dazu denke das einfachste wird sein wenn wir uns das ganze leben in einer kleinen live-demo anschauen das ist die usa analytics erreichte dass es die sml webseite mit dem machine learning oder sms studio vergrößert das ganze ein bisschen damit ist etwas besser sehen können und was sie hier haben es eben eine auflistung der entsprechenden experimente die sie bereits gefahren haben sprich der data mining und predictive analytics modelle die sie bereits gebaut haben und als beispiel zeige ich ihnen eins was ich gebaut habe um vorherzusagen ob ein kunde zum beispiel einen bestimmten artikel in seiner bestellung zurücksendet erschrecken sie sich nicht dass das modell entsprechend größer aussieht das tun sie alle mit der zeit aber schauen wir uns einfach mal an was wir machen wir haben also auch hier eine datenquelle aus der wir die die daten ursprünglich gewonnen haben ist es einfach eine neue order tabelle oder bestimmt ein bestimmter teil dieser ordert er bittet ihn nicht zum trainieren benutze ich hoffe das funktioniert jetzt eben ist mir leider abgestürzt weil die datenverbindung die nicht ganz so groß wohnung mich ist ich kann mir anschauen wie die die daten aussehen in dieser tabelle das heißt ich kriege für die kriege aufgelistet welche spalten ich habe ich sehe in den spalten was die entsprechenden werte sind die minimal wertet die maximalwerte für unterschiedliche werte es gibt wie viel wehrte vier personen großes gefühl dafür was für daten nicht habe dann habe ich die daten natürlich hier aufgeteilt hat er die daten geladen die datenverbindung reicht nicht wir sehen also hier leider lediglich dass wir eben konnte man erkennen dass wir 15 verschiedenen spalten hatten mit 150 tausend einträgen klappt vielleicht beim nächsten mal wieder und die daten habe ich entsprechend aufgeteilt in ein modell für mich lernen kann ein modell in dem ich validieren kann dann muss ich vielleicht noch die daten entsprechend konvertieren der ich werde hier einfach ein paar daten die ich nicht brauche einfach ausschneiden schneide dir zum beispiel aus welche bestell positions- nummer das ganze hat das ist für meine vorhersage unwichtig und wer von ihnen kennt er als sprache für predictive analytics modellierung das eine sehr beliebte open source sprache und die hat jetzt tatsächlich auch in die microsoft umwelt nicht nur auf adobe einzug gehalten sondern auch hier in den maschinen learning bereich weil sie im prinzip standard ist für viele verschiedene modellierungs verfahren weil sie einfach sehr häufig vorkommt und hier haben wir jetzt eben auch die möglichkeit einzusetzen in dem fall in dem kleinen modell noch ohne große funktionalität und dann kann ich mir natürlich auch hier auswählen was ich machen will um diese vorhersage sprich welche artikel nun wahrscheinlich zurückgeschickt wird oder welcher nicht zurückgeschickt wird durchzuführen da nutze ich etwas was ich puste zwischen trees nennt da haben sie aber wie sagt eine komplette palette von unterschiedlichen methoden die sie entsprechend ausprobieren können und am ende kriege ich dann natürlich eine entsprechende vorhersage können uns mal anschauen was die vorhersage für dieses einfache modell ist und da sehen wir juden sind die daten in prozent auf sortiert das in den ersten zehn prozent die das modell für am wahrscheinlichsten hält für eine rücksendung bereits über 25 prozent der tatsächlichen rücksendungen erfasst werden und alles was wir hier einen daten für dieses modell zur verfügung haben ist im prinzip der preis des produkts und die idee des produkts okay das kann ich natürlich auch entsprechend erweitern dieses ich kann das modell natürlich auch erweitern indem ich mir sieht jetzt noch etwas noch etwas wilder aus das ist einfach mehrere modelle gegeneinander im vergleich in dem ich in dem fall noch nicht durchgelaufen okay ich musste die modelle eben leider noch mal neu trainieren schauen welche modelle bereits fertig sind das hier ist die variante die bereits abgeschlossen worden ist was ich jetzt hier gemacht habe im prinzip das gleiche wie vorher ich habe die daten meiner bestell position aber ich nutze jetzt noch ein webservice der mir zusätzlich noch an gibt welchen score der customer in meiner datenbank hat denn ich hab ein paar kunden die sind besonders gute kunden die senden wenig zurück und ich habe ein paar kunden die sind eher unzuverlässige kunden und wenn wir das ganze eben berücksichtigen sehen wir hier in der in der auswertung des modells dass wir hier jetzt bereits im bereich von 10% der des datenmodells des datenvolumens 50 prozent der rücksendung treffen dass die die top 10 prozent die das modell für am wahrscheinlichsten hält im bereich der rücksendung machen auch tatsächlich 50 prozent fast meiner tatsächlichen rücksendungen aus und die kann ich dann eben gezielt ansprechen und den kann ich dinge vorschlagen der workflow wenn man so ein experiment baut ist auch entsprechend einfach wir haben hier eine wahl ein neues experiment zu bauen könne natürlich auch erstmal einen datensatz hochladen und es geht im prinzip immer damit los dass wir uns entscheiden okay was sind die daten auf denen wir den wir arbeiten wollen das könnten zum beispiel hier unsere bestelldaten seien die wesentlichen datenquellen sind csv und webservice klopp datenquellen und dann haben wir die möglichkeit für den fall dass das datenformat nicht passt es wenn die da in einem bestimmten profitieren formaten vorliegen wie sie das eben im bereich des projektes analytics häufig tun also svm eben als ein beliebtes input format oder eben weg dann können wir die natürlich auch entsprechend konvertieren wir haben die möglichkeit verschiedene daten transformationen durchzuführen zum beispiel eben auch diese dieser operation und wir können natürlich auch sagen okay wir haben nicht so viele spalten wir wollen jetzt nur einige auswählen da haben wir die möglichkeit dann entsprechend features selektion zu betreiben ist er wählt die am nützlichsten erscheinenden spalten aus um dann natürlich um dann natürlich auch die entsprechenden modelle bauen und nutzen zu können wir können wieder hier die russischen trees nehmen können uns hier grafisch wie in den integrations services entsprechend unser modell zusammenstellen haben sie ein modell ausgewählt ich kann sagen okay ich will diese train model komponente da muss ich dann daten eingeben ich musste diese komponente natürlich ein modell eingeben ich muss sagen wie das modell zu konfigurieren ist dann muss ich natürlich auch sagen welches ist die spalte die ich entsprechend vorhersagen will und dann weiß ich dass es die spalte equipment und wenn ich das ganze gemacht habe kann ich das modell entsprechend durchlaufen lassen und natürlich anschließend auch das modell entsprechend auswerten oder sogar wenn das sie durch läuft können wir uns anschauen was wir auch noch machen können wir können das ganze modell natürlich auch am ende haben wir etwas komplexeres modell wir können das modell wenn es fertig ist auch über die verschieden über die funktion publish eben als web service bereitstellen dass wir haben die möglichkeit unsere vorhersagen tatsächlich auch für andere konsumierbar zu machen kommt dafür sorgt ist leider etwas viele daten immer wieder er kam leider kein besonders kam leider das ende von firefox ok um sie jetzt auch nicht nicht weiter von der party nachher abzuhalten also wird sie können hier theoretisch auch die ganze modelle die sie erstellt haben eben konsumierbar für die für andere kunden in der cloud oder eben für ihre eigene umgebung bereitstellen indem sie diese als service markieren sie können jetzt mal was auch entsprechend testen und können so sehen welche vorher sagen sie für bestimmte infos parameter bekommen wenn sie selber predictive analytics bei sich oder beim kunden einsetzen ist im prinzip der der wichtigste schritt der identifizieren sie eben am anfang wurde er der business mehr wegschauen sie sich genau an was ist die fragestellung wurde wo der schuh wirklich drückt und in kombination was wirklich auch machbar ist von den entsprechenden frage stellen sie können gleich versuchen die ganze welt zu retten sie haben bei projekt analytics möglichkeiten die bis hin zu weder vorkasse so das gesamte wettervorhersagen vorherzusagen sehr sehr mächtig sehr umfangreich sind aber starten sie in der regel mit etwas was wirklich dem business hilft und was eben mit vertretbarem aufwand realisierbar ist holen sie sich hier notfalls auch eben einen experten der sie ein zwei tage lang berät der ihnen sagt was können wir eigentlich speziell für ihre business cases machen was können wir für ihre geschäftsprozesse tun und wie aufwändig ist das und mit welchen savings können sie da in dem bereich ja eben entsprechend auch rechnen und die möglichkeit tatsächlich aus den daten die sie bereits eben immer integriert haben aufbereitet haben tatsächlich jetzt auch eben einen mehrwert herauszuholen was sie dafür brauchen ist natürlich jemand der sich mit diesen tools auskennt eben den experten im bereich predictive analytics was sie aber auch brauchen ist natürlich einen experten der weiß was sind das eigentlich für daten wo kommen die daten her was bedeuten die daten wo haben wir jetzt vielleicht auch gewinne verdanken qualitätsprobleme und sie brauchen natürlich als drittes auch jemanden der den entsprechenden prozess kennt subject matter expert der wirklich weiß worum es in dem prozess geht und wo dann entsprechend auch hebeln kann klar wie vor hier soll ihnen zeigen das ganze ist natürlich jetzt auch keine triviale wissenschaft es reicht nicht wenn man einfach nur drei komponenten zusammen klickt man sollte natürlich auch wissen was unter der haube passiert und was man vielleicht statistik gesprochen besser eben nicht an vorhersagen macht aber was für sie eben klar sein sollte wir haben eine menge unterschiedliche einsatzszenarien hinter denen sich in sehr großer business value verbirgt mit dem man sehr viel geld verdienen oder sparen kann je nachdem von welcher seite sie das ganze betrachten und es ist garantiert auch für ihr vertical oder für ihr konkretes unternehmen etwas dabei und was wir jetzt eben aus pool sicht gesehen haben da haben wir auch unterschiedliche möglichkeiten wir haben eben on premises den klassischen server konfigurierbar und steuerbar über entweder visual studio ausleben sicht des entwicklers oder aussichten des data scheint ist wahrscheinlich eher aus excel sie haben die möglichkeit hier die gesamte funktionalität zu nutzen die ihnen excel zur verfügung stehe und die ihnen in den analysis services zur verfügung steht und was sie jetzt eben auch neu machen können sie können sich in s m l über die cloud daten aufbereiten prädiktive modelle generieren lassen und diese wiederum dann als web-service nutzbar machen und denken sie daran das ganze eben ein kontinuierlicher prozess ähnlich wie datenqualität wenn sie einmal ein erstes modell haben was ein benefit wird kommt sehr schnell die frage wie kann man das noch ein kleines bisschen besser entwickeln welche daten können wir dazu nutzen und noch mal der der persönliche tipps starten sie mit den sachen die einfach erreichbar sind und ihnen die sichtbaren mehrwert haben vielen dank von meiner seite und ja fragen von ihnen dann nutzen sie die gelegenheit registrieren sie sich für das nächsten monat wird es dann auch ganz offiziell auch wenn sie noch nicht im tab sind benutzbar sein viel spaß auf der 10 jahres party bis nachher

Be First to Comment

Leave a Reply

Your email address will not be published. Required fields are marked *