Azure Databricks gør det nemt at analysere selv meget store datamængder ved hjælp af den enorme regnekraft, der findes i cloud-miljøet.
Databricks, som er udviklet af grundlæggerne af Apache Spark, er en end-to-end (fra udvikling til produktion) webbaseret analyseplatform, der gør det nemt at kombinere Big Data, Data Science og Apache Spark.
I 2017 indgik Microsoft og Databricks under navnet Azure Databricks et samarbejde, der har gjort det muligt at have en fuldt integreret Databricks-platform i sit Azure-miljø.
Dette samarbejde mellem Azure som Cloud-udbyder og Databricks som Apache Spark platform gør det muligt at lade den enorme regnekraft fra Databricks indgå i et fuldt integreret cloud-miljø, hvor de mange services snakker samme sprog – nu også med Databricks frameworket.
En af de store styrker ved samarbejdet mellem Azure og Databricks er, at man har en Apache Spark-platform, der er fuldt integreret med alle de kendte komponenter fra Azure – såsom Azure Data Factory og Azure Blob Storage – hvilket giver mulighed for sammenhængende pipelines i hvert projekt.
Et relateret vigtigt aspekt er muligheden for at rollefordele forskellige profiler, hvilket gør det nemmere og mere sikkert for forskellige profiler som Data Engineers og Data Scientists at arbejde sammen på de enkelte projekter i miljøet.
Databricks har også mulighed for Auto-Scaling af dine ressourcer. Med dette menes, at du kan have et cluster, der automatisk tilpasser sig til, hvad du har brug for på det givne tidspunkt. Generelt er hele cluster-aspektet håndteret, hvilket gør det nemt at komme i gang med Cluster Computing selv for nybegyndere. Når man når et mere avanceret niveau i arbejdet med spark, er der også muligheder for at overvåge sine programmer direkte fra Databricks til optimering af disse.
Udover den generelle fordel ved at have et nemt overblik over sine pipelines og cluster computing-fordelen. når man behandler meget store datamængder, kan vi her se på to eksempler, hvor det specielt giver mening:
Udover at have en nem og overskuelig integration til alle de store Machine Learning-biblioteker samt nødvendigheder, der kommer før og efter Machine Learning-udvikling, så har Databricks den fordel, at de meget store udregninger eller datamængder, der er ofte hører med Machine Learning og Deep Learning nemt kan blive orkestreret på din automatisk startede cluster.
Her kan man nemlig udnytte Databricks Apache Spark-fundamentet, mere specifikt udvidelsen til Apache Sparks core API: Spark Streaming, som er er sat op til at arbejde med ofte brugte datakilder så som Kafka, HDFS og Twitter. Spark Streaming er desuden fuldt integreret i løsningen og meget nemt at opsætte og bruge.
Prøv det her
Rigtig mange forskellige profiler kan få gavn af Databricks, men overordnet giver det mening, hvis du:
Med open source menes software, hvor kildekoden er frit tilgængelig til brug og bidrag. I dette tilfælde drejer det sig om Scala, som Apache Spark er bygget på.
Med distributed cluster computing menes, at de programmer, man eksekverer, bliver behandlet (distribueret) på en gruppe af computere (et cluster).
Man kan sige, at man bryder et større problem ned i mindre problemer, og lader hver enkelt node (computer) i sit cluster samtidigt håndtere en mindre bid af opgaven. Derfor når man meget hurtigere frem til resultatet.
Denne fordeling (mapping) af opgaverne til de ledige noder samt sammenlægning af de individuelle resultater (reducing) sker automatisk og giver i de fleste tilfælde meget store fordele tidsmæssigt, når man arbejder med meget store datamængder.
Gør som en lang række af landets mest ambitiøse virksomheder:
Udfyld formularen eller tag fat i Søren – så kan vi tage en god snak om jeres udfordringer og drømme.