Hopp til innholdet

Data Mining

Hva er Data Mining? 

Data Mining er prosess, mens datavitenskap er et område. Målet med Data Mining er å gjøre dataene mer brukbare, mens målet med datavitenskap er å bygge datasentriske produkter for en organisasjon. 

Data Mining er en aktivitet som er en del av en bredere kunnskapsoppdagelse i databaser (KDD)prosessen, mens Data Science er et fagfelt akkurat som anvendt matematikk eller informatikk. 

Data Mining er prosessen med å finne avvik, mønstre og korrelasjoner i store datasett for å forutsi resultater. Ved å bruke et bredt spekter av teknikker kan du bruke denne informasjonen til å kutte kostnader, øke inntekter, forbedre kundeforhold, eller redusere risiko. 

Grunnlaget består av tre vitenskapelige disipliner: statistikk, kunstig intelligens og maskinlæring. Maskinlæring i data mining brukes mer i mønstergjenkjenning mens det i datavitenskap har en mer generell bruk. 

Mange av algoritmene ble oppfunnet for mange år siden, men med det siste tiåret sine fremskritt innen prosessorkraft og hastighet – er det nå mulig å automatisere mye som krevde manuall behandling før. Desto mer komplekse datasettene er, desto større potensial er det for å finne relevant innsikt.  

De viktigste trinnene involvert i en Data Mining prosess er: 

  • Utpakking, transformering og innlasting av data til et datalager 
  • Lagre og administre data i flerdimensjonale databaser 
  • Gi datatilgang til forretningsanalytikere ved hjelp av applikasjoner 
  • Presentere analyserte data i lett forståelige former, for eksempel grafer 

SYSCO og Data Mining:  

I SYSCO sine AI & Analyse-prosjekter er Data Mining et grunnleggende element for å hente ut innsikt fra data. For eksempel, i ett av energiprosjektene vi har jobbet med – data fra flere sensorer fra forskjellige vannkraftstasjoner. I dette tilfellet er det lett å forstå de forskjellige trinnene i data mining: 

  • Kombiner de forskjellige datakildene fra forskjellige vannkraftstasjoner og systemer til en 
  • Administrer disse dataene som er samlet inn live 
  • Det er viktig å velge hvilke data man skal benytte – og å vaske dem. Ikke alle tilgjengelige data er interessante, det er avhengig av prosjekt og hva behovet er. Her ønsket vi å oppdage avvik i oppstarten av en turbin i forbindelse med et vannkraftverk. 

Les mer om SYSCO sine tjenester innenfor Data og Analytics > 

Møt en av våre Data Scientists, Anais > 

Relaterte ord:  

AI, BI, Database, Data science, Data Wrangling, Data CrawlingData scientistHuman algorithmsKraftproduksjonML, PythonR, Automatisering

Tilbake til toppen