Data science hos Implement: Identifikation af use cases

Data science hos Implement: Identifikation af use cases

Hvordan sikrer vi, at vores data science-l?sninger rent faktisk g?r en forskel? Det er lettere sagt end gjort, da data science har nogle s?rlige faldgruber, som vi skal v?re opm?rksomme p?.

En del af udfordringen er formentlig at skaffe folk, der har et fagligt overlap mellem data science og forretningsudvikling. Personer, der har kendskab til de nyeste muligheder inden for machine learning og AI, er ofte ret unge, og samtidig har de ikke n?dvendigvis ogs? studeret innovationsprocesser eller forretningsudvikling. Feltet kan b?re pr?g af, at der er en (forst?elig) fork?rlighed for teknologien, som jeg ogs? selv indimellem kan falde for.

Udfordringen betyder, at mange data science-projekter kommer i gang uden at have defineret det rigtige problem og dermed enten ikke l?ser noget reelt v?rdifuldt eller viser sig umulige at l?se.

Jeg vil her fors?ge at komme med nogle simple v?rkt?jer, som du kan bruge til at komme ud over de udfordringer – v?rkt?jer, der kan v?re til gavn for b?de forretningsudviklere og data scientists.

Hvad er en (data science) use case?

En use case er to ting: Et defineret m?l og en vej til at n? m?let. Eller sagt p? en anden m?de: Et defineret problem og en l?sning p? problemet. 

Hvis vi skal tage et eksempel p? en use case, kunne problemet v?re at f? oversat tekster fra fransk til engelsk, og l?sningen kunne v?re et machine translation system som fx Google Translate. 

N?r vi snakker om use case-identifikation, s? handler det om f?rst at identificere interessante og v?rdifulde problemer eller m?l og herefter identificere veldesignede l?sninger til dem.

Use case-identifikation

No alt text provided for this image

En use case-identifikation kan minde om en klassisk innovationsproces. Vi skal generere et v?ld af idéer, som vi s? skal sortere, prioritere og berige, indtil vi kan teste nogle af idéerne, f?r vi endelig sender dem ud i verden til feedback og inspiration.

Idégenerering

Den f?rste regel, n?r du skal identificere din data science use case, er: G?r det aldrig alene. S?rg for at komme ud og m?de de potentielle brugere. Lav workshops, eller invitér folk ind. Du kan starte med at fort?lle, hvad data science og machine learning er, og s? kan et sp?rgsm?l m?ske hj?lpe til inspiration:

Hvis du havde en magisk krystalkugle, som kunne forudsige fremtiden, hvad ville du s? sp?rge den om p? dit arbejde og hvorn?r?

N?r de indledende vittigheder om lottotal og venners privatliv er overst?et, viser det sig ofte, at det sp?rgsm?l faktisk er sv?rere at svare p? end som s?. Det kr?ver nemlig, at folk forholder sig meget konkret til det sp?rgsm?l, som de ville stille til den magiske krystalkugle.

Det gode ved sp?rgsm?let er, at det i f?rste omgang tillader folk at parkere diverse diskussioner om, hvad der er realistisk og urealistisk inden for data science, og tillader dem bare at v?re kreative. 

Ofte kommer der et v?ld af interessante sp?rgsm?l og idéer op, hvoraf rigtig mange naturligvis er umulige at udf?re – og det er s?dan set en del af pointen. Det er nemlig meget bedre at starte en umulig idé op og s? kassere den tidligt end blot at udvikle noget realistisk, men v?rdil?st.

Idéberigelse

P? nuv?rende tidspunkt skulle vi gerne have 20-40 idéer noteret ned, som beskriver situationer, hvor ny viden fra en data science l?sning, kunne v?re hj?lpsomt. Disse skal konkretiseres yderligere, og vi skal til at v?re kritiske over for vores problemstillinger.

Form?let med dette trin er, at vi i endnu h?jere grad sikrer, at det problem, vi l?ser, rent faktisk er v?rdifuldt. Derfor bruger vi denne s?tning:

Jeg er en ____, og n?r jeg ____, ville jeg kunne ____, hvis jeg vidste _____.

N?glen her er, at vi har defineret en handling i en situation. Se eksemplet her: 

Jeg er en operat?r hos 112, og n?r jeg tager et opkald, ville jeg kunne sende en ambulance hurtigere, hvis jeg vidste, om det var et hjertestop.

(Se Corti.ai for mere om denne use case) 

Hvis vi ikke kan konstruere en s?dan s?tning, er der risiko for, at dét, vi har identificeret, er et s?kaldt ”nice to know”-problem; dvs. en situation, hvor nogen gerne ville vide noget, fordi det kunne v?re rart eller interessant, men m?ske reelt ikke er i stand til at bruge informationen til noget v?rdifuldt.

Disse s?tninger giver ogs? konkrete mennesker, som vi kan g? til for at f? idéen verificeret. Genkender disse personer rent faktisk sig selv i den situation, som vi har beskrevet? Er den information, som vi foresl?r, nok til, at de kan foretage den p?g?ldende beslutning/handling? Er handlingen tilg?ngelig? Hvis vi kan svare ja p? alle disse sp?rgsm?l, s? har vi en beriget idé.

Tip: Hvis du har mulighed for det, s? sp?rg personen i s?tningen, om de kender noget data, som kan give dig et praj om, hvad du gerne vil vide. Folk er ofte meget kreative, og de kan have indsigter, som vi ikke har. S? udnyt chancen for at snakke med brugerne.

Men hov, hvad med fuldkommen automatisering? Det er sandt, at handlingen er mindre v?sentlig i et fuldkomment automatiseringsscenarie (fx Enversion, som fuldautomatiserer fakturah?ndtering, s? arbejdsopgaven simpelthen forsvinder). Denne type use case falder dog uden for v?rkt?jerne her – hvorfor jeg ikke har beskrevet fuldautomatiseringsscenarier ovenfor. Ikke fordi de ikke er interessante, men fordi identifikationen f?lger et noget andet m?nster.

Kritiske sp?rgsm?l

Vi skulle nu gerne have en h?ndfuld gode koncepter at g? videre med. Og nu er det derfor p? tide, at vi angriber dem fra data science-siden. Kan det her rent faktisk lade sig g?re?

N?r jeg skal afklare, om mine koncepter kan lade sig g?re rent data science-m?ssigt, s? stiller jeg mig selv tre kritiske sp?rgsm?l:

  • Hvor lang tid ville det tage et menneske at lave vurderingen?
  • Ville 10 mennesker v?re nogenlunde enige?
  • Findes der data, der kan forklare f?nomenet?

Hvor lang tid ville det tage et menneske at lave vurderingen? Dette sp?rgsm?l drejer sig om den forventede kompleksitet i problemet. En gammel regel i data science siger: Hvis det tager et menneske mere end to sekunder, s? kan computeren formentlig ikke l?se det. I dag er vi noget l?ngere, og jeg ville v?re villig til at g? op p? nogle minutter, men princippet i det er rigtigt: Hvis mennesker oplever det som en sv?r vurdering, s? er maskinerne formentlig mindst lige s? udfordrede. 

De bedste use cases er ofte nemme for mennesker. At vurdere, om et billede er en hund eller en kat, er nem, og vi g?r det n?sten uden at t?nke. At vurdere, om indholdet af en artikel er faktuelt korrekt, kan omvendt kr?ve, at vi t?nker os rigtig godt om. 

Ville 10 mennesker v?re nogenlunde enige? Med sp?rgsm?let fors?ger jeg at vurdere graden af subjektivitet i et givent problem. Bem?rk, at verden er fuld af ting, som vi ved, er subjektive, men der er endnu flere ting, som vi tror, er objektive, men i praksis ikke er det. Kreditvurderinger, karaktergivning, diverse ans?gninger. Alle disse omr?der er sv?re for data science at vurdere, fordi de (p? godt og ondt) indeholder rigtig meget subjektivitet. 

Det er v?rd at bem?rke her, at en algoritme kan tvinge objektivitet ind i en proces, der m?ske mangler det. Men hvis vi ikke tror, at 10 mennesker ville v?re enige, s? er der umiddelbart grund til bekymring. Et opf?lgende sp?rgsm?l kunne dog v?re: Men burde de v?re enige? Hvis ja, s? er data science m?ske stadig interessant, men vi skal tr?de varsomt, for noget kunne tyde p?, at vi k?mper med bias (mere om det i en senere artikel).

Findes der data, der kan forklare f?nomenet? Nogle f?nomener egner sig ikke til forudsigelse, fordi de grundl?ggende er uforudsigelige. Jordsk?lv og vulkanudbrud har l?nge v?ret et m?l for videnskaben ikke bare at forst?, men ogs? at kunne forudsige, men det er reelt ikke lykkedes endnu. Store politiske begivenheder som valg og borgerkrige er ogs? notorisk sv?re at forudsige. Aktiemarkedet er ogs? en klassisk udfordring. Vi kunne formentlig godt opstille noget data, men vi ville n?ppe kunne opstille nok til at opn? en specielt st?rk model.

De bedste use cases er dem, hvor kilden til viden er meget klar. Hvis vi skal diagnosticere, om et ben er br?kket, har vi et r?ntgenbillede. Svaret p? sp?rgsm?let: Er benet br?kket? gemmer sig i billedet, men vi ved, at svaret findes i billedet.

Test og udvikling

Hvis du p? dette tidspunkt har nogle idéer tilbage, har du formentlig en interessant use case. Tillykke! Idéen egner sig formentlig godt til en data science-l?sning, og du er rimelig sikker p?, at der er en brugergruppe, der har en reel situation, hvor l?sningen ville kunne give dem v?rdi. 

Det burde nu v?re realistisk at begynde at finde ud af, hvor kr?vende l?sningen vil v?re at udvikle, og lave en cost-benefit-analyse, der viser, om udviklingen st?r m?l med v?rdien.

Mere om det i n?ste artikel.

Opsummerende

Hvis du skal identificere v?rdifulde data science use cases, er det en god start at parkere begr?nsningerne i teknologien og i stedet indlede en kreativ proces, hvor du fokuserer p? at identificere situationer, hvor man kunne tr?ffe bedre beslutninger p? baggrund af information.

 Det kan fx g?res med en s?tning som: Jeg er en ___, og n?r jeg ___, ville jeg ____, hvis jeg vidste _____.

 En data scientist vil typisk kunne behandle s?danne s?tninger og vil ud fra en kritisk vurdering kunne prioritere dem og begynde afs?gningen af data.

Hvis du overvejer at begynde med data science eller f?ler, at data science-kompetencerne i din organisation skal afstives, s? tilbyder Implement Consulting Group kurset Data Science Masterclass.

L?s mere om kurset her: https://learninginstitute.implement.dk/en/courses/data-science-masterclass

  

要查看或添加评论,请登录

Adam Hede的更多文章