Nopeasti alkuun data-analytiikan kanssa Microsoft Fabricin avulla

Datan matka raakamuodosta hyödylliseksi informaatioksi voi olla kuin maraton: pitkä ja vaativa. Datan käsittely usein vaatii monimutkaisia vaiheita ja erityisosaamista. Mutta entäpä jos tämän maratonin voisi muuttaa pikajuoksuksi? Microsoft ehdottaa tähän ongelmaan ratkaisua nimeltään Fabric. Se on monitoimityökalu, joka yhdistää erilaiset datan käsittelyyn tarvittavat ratkaisut yhdeksi sujuvaksi kokonaisuudeksi. Fabric tarjoaa yhtenäisen alustan, joka yksinkertaistaa datan keräämistä, säilyttämistä ja analysointia. Tietyissä skenaarioissa tämä poistaa tarpeen käyttää useita erillisiä työkaluja ja ratkaisuja tehostaen prosessia merkittävästi.

Tähän mennessä Microsoftin työkalupakki analytiikalle on koostunut enimmäkseen Azuren eri palveluista, Power BI:sta ja Databricksista. Nämä ratkaisut osaavat teoriassa keskustella keskenään kohtuullisen vaivattomasti, mutta kuitenkin vaatien tiettyjä proseduureja niiden keskusteluyhteyden pystyttämiseksi ja datan synkronoimiseksi. Tätä taustaa vasten Fabricin voi nähdä eräänlaisena Sveitsin armeijan linkkuveitsinä, yrityksenä eliminoida siiloja analytiikkapalveluiden välillä ja datalähteiden kopioimista. Mutta kuinka hyvin Fabricin eri moduulit, joiden on tarkoitus jalostaa dataa infromaatioksi eri vaiheissa, taipuvat todellisen ja ison mittakaavan tuotannon tarpeisiin?

On arvioitu, että jopa 80% dataprojektien resursseista käytetään datan esivalmisteluun

Miksi Fabric?

Me Cloudrivenilla olemme perehtyneet Fabricin ominaisuuksiin ja kehityskaareen nyt kuukausien ajan tarkoituksena ymmärtää sen mahdollisuuksia ja rajoituksia verrattuna entiseen Power BI Serviceen ja Synapseen, jonka monet osat ovat nyt integroituna Fabriciin. Analyysimme ja Fabricin viimeaikaisen kehityksen perusteella on syytä olettaa, että siihen tullaan satsaamaan merkittäviä resursseja ja Microsoftilla usko sen menestymiseen tulevaisuudessa tuntuu olevan korkealla tasolla. Tämä usko saa konkreettista tukea ainakin seuraavan viiden seikan takia.

Kokonaisvaltainen analytiikka-alusta

Fabricin ydinajatus on tarjota yhtenäinen analytiikka-alusta, joka integroi datan käsittelyn eri vaiheet – datan integroinnin, tallennuksen ja analytiikan – yhdeksi kokonaisuudeksi. On arvioitu, että jopa 80% dataprojektien resursseista käytetään datan esivalmisteluun: puhdistamiseen, kuntoonsaattamiseen, formatointiin ja integraatioon. Loput 20% kuluu etupainotteisesti tuotannon operatiivisiin toimintoihin ja itse analyysiin kulutetaankin toisinaan vain 5% kaikista resursseista. Tästä voidaan vetää helposti sellainen johtopäätös, että ad-hoc tyyppisissä projekteissa datan esivalmistelut suhteessa kokonaistuotokseen ovat sitäkin suuremmat.

Datan esivalmistelut vaikuttavat olevan siis suhteettoman kalliita itse analyyseihin nähden. Ajatus kokonaisvaltaisesta analytiikka-alustasta voi vastata tähän ongelmaan poistamalla siiloja eri esivalmistelun vaiheiden välillä mahdollistaen vaiheiden rinnakkaista työstämistä ja datan logistiikan yksinkertaistamista. Raakaöljyn jalostamot voivatkin toimia lähestulkoon samassa paikassa missä öljynlähteetkin sijaitsevat. Lopulta tämä säästää aikaa myös itse analyyseissa pitäen Pareto-säännön voimassa, mutta vähentäen tarvittavia kokonaisresursseja. Parhaimmillaan sama henkilö voi suorittaa sekä esivalmistelun vaiheita, että analyyseja (=Full Stack Data Scientist?). Kätevää!

Fabric tarjoaa kirjavan joukon työkaluja ja ratkaisuja datan jatkojalostamiselle, joista on miltei kaikista tarjolla low-code vaihtoehtoja

Datan käsittelyn ”demokratisointi”

Fabricin tähänastisia ominaisuuksia voi pitää hyvinä askeleina kohti datan demokratisointia organisaatioissa ja se johtuu ainakin kahdesta eri syystä. Fabricin intuitiiviset ja helppokäyttöiset ratkaisut tekevät datan käsittelystä saavutettavampaa ja tehokkaampaa eritasoisille käyttäjille, mikä madaltaa kynnystä datan hyödynnettävyydelle. Sen OneLake -arkkitehtuuri mahdollistaa monia nopeita datalinkkejä ja -integraatioita ilman alalle tyypillisiä raskaita ETL-prosesseja. Tähän joukkoon kuuluu sellaisia lupaavia ominaisuuksia, kuten shortcut, mirroring, suorat yhteydet M365, D365 ja Power Platform -sovelluksiin, sekä Direct Lake -tila. Datalähteiden linkityksen jälkeen Fabric tarjoaa kirjavan joukon työkaluja ja ratkaisuja datan jatkojalostamiselle, joista on miltei kaikista tarjolla low-code vaihtoehtoja, joiden avulla melko kokematonkin tai koodaamista vierastava käyttäjä voi analysoida ja ennustaa datalla varsin pienillä resurssipanostuksilla.

Toisekseen, datan hallintaa Fabricissa tehostetaan Purview:n ratkaisuilla, jotka parantavat datan saatavuutta, indeksointia sekä vastuu- ja omistajuusaspekteja. Purview:n avulla voidaan automaattisesti kerätä ja näyttää metadataa Fabric -kohteista, minkä ansiosta käyttäjät voivat helposti hallita ja ymmärtää Fabricissa olevia ydindatalähteitä. Tämä integraation avulla voidaan myös hyödyntää Purview:n ominaisuuksia datan  luokittelemiseen, suojaamiseen, yhteensopivuuden arvioimiseen ja herkkyysluokitteluun. Kaiken kaikkiaan Purview ja Fabric yhdessä mahdollistavat tehokkaamman ja turvallisemman tavan hallita ja hyödyntää dataa läpi organisaation.

Power BI Servicen käyttäjät ovat nyt Fabricin käyttäjiä

Melko pian Fabricin julkaisun jälkeen Power BI Service integroitiin kokonaan sen osaksi, mikä tarkoitti sitä, että Fabricin käyttäjäkunta on ollut varsin laaja alusta lähtien. Fabricin laaja-alaiset analytiikkaominaisuudet tulivat siis kertalaakilla hyvin monen käyttäjän saataville. Laaja käyttäjäkunta sellaiselle tuotteelle, jonka monet tärkeät ominaisuudet ovat joko preview- tai odotustilassa voi olla sekä vahvuus, että haaste tietyissä skenaarioissa. Käyttäjien toiveiden tynnyri on iso, ja sen vuoksi moni joutuu pettymään odottaessaan itselleen mielekkäitä uusia ominaisuuksia. Toivotaan, että Fabricin kehitystiimit kuuntelevat käyttäjäpalautetta ja jatkavat palvelun kehittämistä vastaamaan käyttäjien tarpeita ja odotuksia. Lopulta laajan ja vakiintuneen PBI:n käyttäjäkunnan integraatio tuo Fabricille paljon tarpeellista huomiota ja uskoa sen tulevaisuuteen monipuolisena analytiikka-alustana.

Hieno työkalupakki ei edelleenkään korvaa sitä, että pitää tietää mitä datalla haluaa saavuttaa ja minkälaisia ongelmia haluaa ratkaista

Ennestään tuttu SaaS-palvelumalli

Fabric perustuu SaaS-palvelumalliin, jossa asiakkaat ulkoistavat monia palveluun liittyviä back‑end asetuksia palvelun tarjoajalle. Sen lisensointi perustuu melko samanlaiseen hinnoittelumalliin kuin Power BI Servicen aikanaan. Tässä hinnoittelumallissa on hyvin vähän liikkuvia osia ja sellaisten parametrien joukko, joka vaikuttaa esimerkiksi laskentatehoon ja levytilan käyttöön, on erittäin kapea. Tämä yksinkertainen malli sopii hyvin monelle organisaatiolle, auttaa ennustamaan kuluja hyvin suoraviivaisesti ja madaltaa edelleen todennäköisyyttä palvelun käyttöönotolle. Sellaiset organisaatiot, jotka eivät halua tyytyä ennalta määriteltyihin parametreihin tässä palvelussa, voivat edelleen rakentaa räätälöityjä kokonaisuuksia esimerkiksi vastaavista erillisistä palveluista Azuressa. Fabricia voi myös hyödyntää tutustuessaan esimerkiksi Synapseen ja Data Factoryyn hankkimatta niitä erillisinä palveluina Azuressa.

Copilot ja OpenAI-natiivi käyttöliittymä

Fabricin käyttäjät voivat hyödyntää Copilotia luomaan dataflowt, kirjoittamaan SQL-lauseita, rakentamaan raportteja ja jopa kehittämään koneoppimismalleja. Tämä ominaisuus on hyödyllinen erityisesti niille, jotka haluavat hyödyntää dataa, mutta eivät välttämättä ole koodauksen asiantuntijoita. Fabricin Copilotia voi siis hyödyntää data-analytiikan joka vaiheessa alkaen datan integraatiosta ja päätyen raportointiin ja ennustavaan analytiikkaan. Kuitenkin haasteeksi sen käyttöönotossa voi muodostua nykyinen hinnoittelumalli. Nimittäin Copilot on saatavilla sellaisissa kapasiteeteissa, joiden hinta lähtee 5000:sta / kuukausi. Jos tämä hintataso ylittää organisaation maksukyvyn, niin eräs vaihtoehto on silloin Azuren OpenAI -mallit, joita voi hyödyntää esimerkiksi koodinkirjoittajan avustajana integroimalla niiden rajapinnat suoraan notebookeihin. Silloin hinnoittelumalli perustuu enemmän käyttömääriin, mutta sen käyttöönotto vaatii enemmän teknistä asiantuntemusta. On kuitenkin syytä olettaa, että Copilot tulee tarjolle myös edullisemmissa lisensseissä ajan myötä kuten kaikissa teknologioissa on tapana käydä.

Mitä seuraavaksi?

Monet Fabricin ominaisuudet ovat edelleen preview -moodissa, mikä tarkoittaa sitä, ettei niiden toimintaa voida taata kaikissa tilanteissa. Lisäksi jotkut moduulit, kuten esimerkiksi Data Factory, eivät vielä ole samassa sarjassa niiden alkuperäisten isoveljien kanssa, tässä tapauksessa Azure Data Factoryssa. Toki monen ongelman ratkominen onnistuu niissäkin ja joskus jopa kiertoteitä, mutta niiden parhaat päivät ovat vasta edessä. Kuten kaikkien teknologioiden kohdalla Fabric on yhtä hyvä kuin sen kyky on ratkomaan todellisia liiketoiminnan ongelmia. Hieno työkalupakki ei edelleenkään korvaa sitä, että pitää tietää mitä datalla haluaa saavuttaa ja minkälaisia ongelmia haluaa ratkaista.

Tällä hetkellä vaikuttaa siltä, että osaavissa käsissä Fabric tarjoaa käteviä oikopolkuja data-analytiikkaan ja tekoälyyn. Se myös taipuu monimutkaisempaan analytiikkaan ja LLM-tekoälymallien hyödyntamiseen. Fabric voi olla myös tehokas työkalu presales, demo, ja konseptointi -näkökulmista, sillä saman katon alla olevien palveluiden käyttöönotto vähentää stressiä kiireellisissä tilanteissa ja sen moduulien liki samanlaiset käyttöliittymät ja -logiikat tarjoavat mahdollisuuden siirtyä kehittämään tuote- ja ratkaisukonsepteja eteenpäin esimerkiksi Azuren puolelle, jos Fabricin ympäristö ei esimerkiksi taivu laajempaan tuotantoon. Fabricin BI‑puoli on kuitenkin toimialansa johtajia PBI:lta perintönä saatujen ratkaisujen ansiosta.

Fabric minun liiketoiminnassa?

Jos Fabricin käyttöönotto epäilyttää, niin tämän pohdinnan helpottamiseksi kannattaa vastata ainakin seuraaviin kysymyksiin:

  • Onko liiketoiminnassani sellaisia ongelmia, joita haluaisin validoida data-analytiikalla mahdollisimman pienillä alkusijoituksilla?
  • Haluanko tehdä data-analytiikkaa siitäkin huolimatta, että minulta puuttuu alan erikoisosaamista?
  • Haluanko tehdä analytiikkaa, vaikka datalähteeni ovat melkoisen sirpaleisia?
  • Haluanko tehdä muutakin kuin deskriptiivistä analytiikkaa Power BI:lla?

Vastaamalla ”kyllä” tämäntapaisiin kysymyksiin viittaa vahvasti siihen, että Fabric voisi soveltua liiketoiminnan tarpeillenne. Jos kaipaatte apua liiketoiminnan ongelmien määrittelyssä, haluatte keskustella Fabricin ominaisuuksista tai toteuttaa laaja-alaista data-analytiikkaa nopealla sprinttilähdöllä, me Cloudrivenilla autamme teitä mielellämme tässä tehtävässä.

Lisätietoja: 

George Lapinlampi
Consultant
+358 44 0765 308
george.lapinlampi@cloudriven.fi 

Ota yhteyttä