Patnáct nástrojů pro prediktivní analýzu

13. 5. 2021

Sdílet

 Autor: Depositphotos
Prediktivní analytické nástroje na základě dostupných dat předpovídají budoucí výkonnost firmy. Na trhu je jich dnes poměrně velký výběr. Přinášíme přehled patnácti těch nejoblíbenějších.

Počítače se během svého vývoje změnily z pořadačů digitálních informací na křišťálové koule, které z uložených dat předpovídají, co se stane v budoucnosti – za několik sekund, dní nebo i let.

Co se dozvíte v článku
  1. Alteryx
  2. Amazon
  3. Board
  4. Dash
  5. Databricks
  6. DataRobot
  7. IBM
  8. Information Builders
  9. MathWorks
  10. Python
  11. R
  12. RapidMiner
  13. SAP
  14. SAS Advanced Analytics
  15. Tableau

Mnoho nástrojů, které k tomu slouží, spadá pod označení „prediktivní analýza“. Tento výraz se užívá souhrnně pro algoritmy, které se vyvíjely po mnoho let z různých koutů statistiky, umělé inteligence, strojového učení a vícerozměrné matematické analýzy. Z laboratoří si nalezly cestu do podnikových serverových farem a dnes pomáhají rozhodovat o maximalizaci užitku při alokaci výrobních prostředků.

Tyto nástroje hrají dvě hlavní úlohy. První, zřejmější z nich, je získávat pravděpodobný obrázek o budoucnosti ze záplavy dat uložených v podnikových databázích. K tomu jim obvykle slouží několik dobře promyšlených algoritmů s různými strategickými přístupy, v některých případech to jsou i desítky algoritmů.

Druhou, méně nápadnou, avšak mnohdy časově podstatně náročnější úlohou je příprava dat. Ta může být velmi pracná, protože data jsou málokdy tak konzistentní a čistá, jak bychom potřebovali. Pokud slučujeme data z různých zdrojů, běžně mívají například datum v různém formátu nebo pocházejí z různých časových zón. To patří mezi snáze opravitelné problémy. Složitější je vypořádat se s chybějícími poli nebo extrémními hodnotami, které mohou být stejně dobře výsledkem chyby jako přesným měřením. Odstranění chyb při zachování integrity dat je skutečný oříšek. Všechny kvalitní nástroje pro přípravu dat jej ale pomáhají rozlousknout.

Řada prediktivních analytických nástrojů je rozšířením původních databází, analytických řešení a reportingových nástrojů. Jejich dodavatelé postupně snoubili tradiční generování reportů s algoritmy AI a vyvinuli nástroje, které poskytují jak shrnutí historických dat, tak prognózy. Takové nástroje bývají provázané s určitým produktem pro ukládání dat. Všechny sice pracují s generickými formáty jako CSV, ale s některými databázemi fungují lépe než s jinými. Pro zákazníka proto bývá nejjednodušší zvolit nástroj nabízený stejným dodavatelem, od něhož již má databázi. Samozřejmě je ale možné data migrovat nebo exportovat ve standardním formátu do jiného nástroje.

Sestavili jsme přehled patnácti nástrojů pro prediktivní analýzu, které znamenají revoluci ve využití podnikových dat v rozhodovacích procesech.

Alteryx

Alteryx se zaměřuje na automatizaci světa prediktivní analýzy pomocí integrace prediktivních algoritmů do své platformy pro generování reportů a řízení procesů. Nástroj obsahuje rozsáhlou knihovnu rutin pro sběr dat, které dokážou importovat data z širokého okruhu obvyklých i méně obvyklých zdrojů včetně moderních i desítky let starých. Nástroj je vysoce přizpůsobitelný a není primárně určený vývojářům, ale datově vzdělaným manažerům s cílem podpořit širší využití prediktivní technologie v reportingu a BI. K dispozici jsou předpřipravená řešení přizpůsobená různým podnikovým funkcím od marketingu po výzkum.

Amazon

Nástroje AWS zaměřené na vyhledávání signálů v datových tocích získávají na oblibě. Jsou rozdělené do různých produktových řad a doplněné nabídkami ukládání dat v AWS (obecně buckety S3). Například Amazon Forecast na základě časových řad předpovídá vývoj obratu na další čtvrtletí a vypočítává, kolik prostředků bude potřeba mít k dispozici k uspokojení poptávky. Amazon Code Guru zase vyhledává špatné sekvence v programovém kódu. Některé nástroje si Amazon vytvořil pro vlastní potřebu (Fraud Detector a Amazon Personalize), ale nabízí je i dalším zájemcům o vybudování on-line obchodního impéria.

Board

Firmy, které si zakládají na přehledech trendů vývoje dat, využívají Board ke sběru dat z různých izolovaných datových repozitářů (ERP, SQL apod.), z nichž sestavují reporty vypovídající o dosavadním vývoji i předpovídající vývoj budoucí. Důraz se zde klade na shromažďování dat z maximálního možného okruhu zdrojů a jejich prezentaci v podobě standardizovaného „pohledu“, který je možné předávat přímo do nástrojů pro vizualizaci nebo prediktivní analýzu (strojové učení, klastrovací algoritmy nebo čistě statistické metody).

Dash

Soubor nástrojů Dash má dvě úrovně – bezplatnou s licencí open source a podnikový systém pro správu vyvíjených i aktivně užívaných modelů. Open source verze obsahuje řadu z nejlepších knihoven Python pro analýzu a vizualizaci dat. Podniková varianta přidává Kubernetes, ověřování a několik dalších důležitých nástrojů, jako je využití GPU pro implementace určené velkým skupinám uživatelů. Obsahuje také vylepšení pro tvorbu přehledových panelů a jiných oblíbených způsobů zobrazení s nízkými nároky na programování (tzv. low-code).

Databricks

Firmy s rozsáhlými soubory dat mohou využívat nástroje Databricks, které jsou postavené na opensourcových projektech Apache Spark, Delta Lake, TensorFlow a ML Flow. Databricks přidává soubor nástrojů včetně usnadnění týmové spolupráce, front pro zpracovávání dat a integrace do dalších procesů. Databricks nabízí verze integrované s AWS a Azure zjednodušující práci s daty uloženými v těchto cloudech.

DataRobot

Firmy, které chtějí mít možnost nasadit modely na lokálním hardwaru, v cloudu nebo v hybridním prostředí, mohou ke správě dat a modelů využít nástroje DataRobot. Ty nabízejí automatizované strojové učení a sadu rutin přizpůsobených vybraným odvětvím, například pojišťovnictví (zohledňování míry rizika při cenotvorbě).

IBM

IBM nabízí dvě vývojové řady nástrojů. Modelář SPSS přišel na trh poprvé v roce 1960 a stále jej využívá mnoho firem, které chtějí pomocí statistiky optimalizovat výrobu. Éra děrných štítků je dávno pryč a uživatelé dnes nepotřebují žádné znalosti programování – v grafickém prostředí sestavují reporty z předpřipravených prvků stylem táhni a pusť. Druhá linie pod značkou Watson se proslavila vítězstvím v oblíbeném televizním kvízu nad dvěma lidskými šampiony celé soutěže. Tyto nástroje jsou založené na iterativních algoritmech strojového učení, které dokážou vytvářet modely na základě tréninkových dat včetně čísel, obrázků a nestrukturovaného textu.

Information Builders

Datová platforma Information Builders umožňuje datovým architektům vytvořit vizuální frontu, která sbírá data z různých zdrojů, čistí je a následně spustí analytické nástroje. Na základě pravidel lze chránit informace, které není možné volně zpřístupnit všem uživatelům. K dispozici jsou přednastavené šablony pro důležitá odvětví, jako jsou průmyslová výroba nebo energetika.

MathWorks

Společnost MathWorks začínala se softwarem MATLAB, který vědcům usnadňoval práci s rozsáhlými maticemi. Postupně však rozšířila záběr na mnoho různých forem číselné analýzy dat. Produkty řady MATLAB jsou zaměřené na optimalizaci a statistickou analýzu, zatímco nástroje řady SIMULINK na simulace a modelování. V nabídce je několik desítek specializovaných sad nástrojů pro specifické účely, například autonomní vozidla, návrh antén nebo zpracování obrazu.

Python

Python začínal jako skriptovací jazyk podobný Perlu, ale postupně se vyvinul v jeden z nejoblíbenějších jazyků pro datovou analýzu na vědeckém poli. Řada výzkumných pracovišť využívá Python k analýze svých výsledků. V poslední době datoví vědci začali balit data, analytický kód a slovní popis do komplexních dokumentů Jupyter (tzv. notebooků). Tento formát poskytuje živé reporty, které může příjemce nejen číst, ale také upravovat a znovu analyzovat. Nástroje Python jako Jupyter Notebook, PyCharm, Spyder nebo IDLE nabízejí nejmodernější přístupy, ale práce s nimi není triviální, takže slouží spíše programátorům a datovým vědcům.

R

Technicky jde o open source jazyk pro datovou analýzu, který je do značné míry vyvíjený a podporovaný akademickou obcí. Existují sice dobré obecné integrované nástroje pro práci s R, jako jsou R Studio, Radiant nebo Visual Studio, ale hodí se spíše pro programátory a datové vědce. Nejnovější výstupy z výzkumných laboratoří se často objeví nejprve v podobě balíčků R, které datoví vědci nejtvrdšího ražení dále zkoumají. Mnoho zde uvedených nástrojů umožňuje integrovat kód R v podobě modulů. A pokud vám nestačí integrované nástroje, můžete se ponořit hlouběji s pomocí dalších modulů, které jsou k dispozici jako open source.

RapidMiner

Modelovací nástroje RapidMiner jsou do maximální míry automatizované, takže si uživatelé mohou bez větší asistence vytvářet prediktivní modely sami. Vývojové studio generuje dokumenty Jupyter s „automatizovaným výběrem modelu“ a „přípravou dat s průvodcem“. Modely jsou postavené na standardních principech, jako jsou klasické strojové učení, bayesovská logika, statistická regrese nebo různé formy klastrování. Vývojáři ke všemu poskytli vysvětlení, aby mohli uživatelé více důvěřovat způsobu, jakým modely docházejí k výsledkům, a neměli pocit, že pracují s „černou skříňkou“.

SAP

Mnoho firem využívá systémy SAP k řízení dodavatelských řetězců. Reportingové nástroje SAP nyní pro účely prognózování nabízejí i prediktivní analýzu založenou na historických datech zpracovaných pomocí strojového učení. Algoritmy zahrnují jak tradiční umělou inteligenci, tak simulace. Software může běžet lokálně, nebo v cloudu SAP. Cílem vývojářů je nabídnout podporu celému podniku prostřednictvím přizpůsobitelných uživatelských rozhraní, která budou konzistentní mezi jednotlivými odděleními. Uživatelé webového prostředí a mobilních zařízení dostávají příslušně upravené reporty s ohledem na komfort práce.

bitcoin_skoleni

SAS Advanced Analytics

Soubor nástrojů nabízených společností SAS zahrnuje přes dvě desítky různých balíčků, které společně tvoří platformu pro historickou i prediktivní analýzu dat. Statistické balíčky a nástroje pro dolování dat se zaměřují na korelace mezi datovými prvky, optimalizační a prognostické nástroje hledají řešení a budoucí vývoj. Důraz se klade na textovou analýzu s cílem získat informace z nestrukturovaných textů. Nedávno firma ilustrovala schopnosti platformy ukázkou, jak může pomoci sledovat kontakty během pandemie.

Tableau

Společnost Tableau, kterou loni koupil Salesforce.com, na sebe upozornila promyšleným, efektním grafickým zobrazením reportovaných informací. Přehledy lze nyní rozšířit pomocí integrovaného analytického modelu o interaktivní vizuální prvky. Nástroj využívá rozsáhlý soubor modulů pro sběr a přípravu dat k analýze.