Follow Us on Twitter

Agile BI met Oracle Endeca Information Discovery

Mei 2013 - Met de acquisitie van het bedrijf Endeca, in december 2011, heeft Oracle, naast een aantal e-Commerce-producten, tevens een nieuw Business Intelligence (BI-)product aan het portfolio kunnen toevoegen. Dit product heeft de naam Oracle Endeca Information Discovery (OEID) meegekregen.

OEID geldt als een platform waarop agile BI bedreven kan worden. Het belangrijkste voordeel van deze vorm van BI ten opzichte van ‘traditioneel’ BI, is dat er sneller waarde voor een organisatie gecreëerd kan worden. Meer dan klassieke BI-oplossingen, zoals bijvoorbeeld Oracle BI EE, biedt OEID mogelijkheden om antwoorden te vinden op mogelijke adhoc vragen die bij de ‘business’ opkomen. Dit zorgt ervoor dat organisaties sneller kunnen reageren op veranderende marktomstandigheden, met de voordelen voor de concurrentiepositie van dien.

Bij traditioneel BI is er veel meer sprake van een vooropgezet plan om specifieke data te verzamelen ter beantwoording van vooraf gedefinieerde vragen. Hierbij valt bijvoorbeeld te denken aan vragen zoals “Wat was de totale omzet in Q2?” of “Welk filiaal heeft het best gepresteerd in 2012?”.

In dit Whitebook wordt OEID nader onder de loep genomen. Er wordt ingegaan op de technische aspecten van de diverse productonderdelen, evenals de positionering van het platform binnen het BI-spectrum.

Wat is OEID?

In essentie is OEID een platform waarop op een snelle, intuïtieve manier data uit een grote diversiteit aan bronnen kan worden ingeladen, verrijkt, doorzocht en geanalyseerd.

Het hart van het platform, de Endeca Server, wordt gevormd door een hybride database die uitermate geschikt is voor zowel het snel doorzoeken en filteren als het aggregeren van data. In de paragraaf ‘Componenten’ wordt nader ingegaan op de techniek die dit mogelijk maakt.

Naast de Endeca Server bestaat het platform uit nog twee belangrijke componenten, te weten OEID Integrator en OEID Studio. De eerste van deze twee biedt een scala van mogelijkheden voor het inladen (in Endeca Server) en verrijken van data uit een grote diversiteit aan bronnen. OEID Studio biedt vervolgens via een grafische schil toegang tot deze data.

Gebruikers van Studio zijn in staat om snel door de geboden data te ‘grasduinen’. Daarnaast biedt Studio de mogelijkheid om applicaties te maken, waarmee op een visueel aantrekkelijke manier verbanden tussen datasets kunnen worden gelegd of aangetoond.

Gestructureerde versus ongestructureerde data

Een belangrijke kracht van OEID bestaat uit het feit dat de Integrator het laden en verrijken van zowel gestructureerde als ongestructureerde data ondersteunt. Dit is een welkome aanvulling op bestaande BI-oplossingen, die sterk zijn gericht op het werken met gestructureerde data alleen.

Gestructureerde data wordt gekenmerkt door het feit dat het zodanig is vormgegeven, dat het past in een voorgedefinieerd datamodel. Denk hierbij aan de klassieke relationele database met tabellen, bestaande uit kolommen en rijen.

Ongestructureerde of semi-gestructureerde data conformeert zich niet per definitie aan een dergelijke structuur. Denk bijvoorbeeld aan content op websites, e-mailberichten, berichten op social-media-platforms of documenten van een tekstverwerker. Al deze bronnen hebben gemeen dat de content in grote mate ‘free-format’ is en dus niet in een voorgedefinieerd datamodel past.

Componenten

Endeca Server

De Endeca Server is het hart van het OEID-platform. De twee andere belangrijke componenten, Integrator en Studio, communiceren met de Endeca Server via webservice-technologie. Zie voor een schematische weergave van OEID afbeelding 1.

Endeca Architectuur
Afbeelding 1 – Globale architectuur Oracle Endeca Information Discovery

Data wordt in de Endeca Server opgeslagen in een kolom-gebaseerd formaat. Een kolom representeert een bepaalde sleutel of attribuut, bijvoorbeeld ‘naam’, of ‘woonplaats’. Voor ieder record dat vanuit een bron wordt ingeladen, wordt de betreffende sleutelwaarde bij de sleutel opgeslagen, of een nieuwe sleutel(kolom) en sleutelwaarde toegevoegd, als de sleutel nog niet bekend is. De Endeca Server koppelt datarecords die één of meer sleutelwaarden gemeen hebben. Overigens kan een attribuutwaarde voor een record bestaan uit één enkele waarde, meerdere waarden, óf een hiërarchische structuur van waarden.

Door deze opzet ontstaat een datamodel as-you-go, oftewel het datamodel wordt ingegeven door de aard van de data die wordt geladen. Dit betekent ook dat het datamodel uiteindelijk ‘jagged’, of kartelig/zaagvormig kan zijn: niet alle records hebben het zelfde aantal en hetzelfde soort attributen. Dit verschijnsel wordt verduidelijkt in afbeelding 2.

Jagged Datasets
Afbeelding 2 – Wijze van opslag van data in Endeca Server

Om het voor eindgebruikers mogelijk te maken snel door de aangeboden data te grasduinen worden veelgebruikte attributen en zoekresultaten zoveel mogelijk gecached in het geheugen. Waar dit niet mogelijk is zorgt een slimme methode van opslag op disk ervoor dat deze diskruimte als een verlengstuk van het RAM-geheugen wordt gebruikt, waardoor de afhandelingssnelheid gewaarborgd blijft.

Endeca Integrator

Endeca Integrator is, als onderdeel van de Endeca Integration Suite, het brein achter het laadproces binnen OEID. Het stelt gebruikers van deze ETL-tool (gebaseerd op open-source CloverETL) in staat om via een grafische gebruikersinterface geavanceerde data-integratieprocessen in te richten, waarmee data van een groot aantal, zeer diverse bronnen kan worden gecombineerd in Endeca Server. Het biedt een aantal op webservice-technologie gebaseerde interfaces en connectoren waarmee op eenvoudige wijze aangesloten kan worden op bestaande ETL-tooling.

Specifiek voor de verwerking (het inlezen, verrijken, integreren) van ongestructureerde data kent de Endeca Integration Suite het zogenaamde ‘Content Acquisition System’ (CAS). Dit subsysteem bestaat uit een verzameling connectoren om data te extraheren, verrijken en integreren van bijvoorbeeld websites, social-media-platformen of filesystemen.

De Integration Suite biedt tevens manieren om de ingeladen data op een intelligente manier te verrijken, en zo nuttige metadata te verzamelen. Door gegevens op een bepaalde manier te ‘taggen’ kan inzicht worden verkregen in de semantiek van de betreffende dataset.

Een specifiek voorbeeld hiervan is sentiment analyse, waarmee kan worden bepaald of de toon van tekst in een dataset primair positief of negatief is. Dit kan voor producenten bijvoorbeeld relevant zijn in de analyse van product-reviews die op een website of via social-media door gebruikers worden geschreven.

Endeca Integrator
Afbeelding 3 – De grafische interface van Endeca Integrator (bron: QuickStart Guide)

Endeca Studio

Voor het vervaardigen van interactieve, analytische applicaties op de data in de Endeca Server is Endeca Studio het aangewezen middel. Deze tool, die is gebaseerd op het opensource Liferay Portal-platform, biedt een ruim assortiment aan visuele componenten om de data te ontsluiten. Door de component-gebaseerde opzet van de tool past deze goed in het idee van agile BI met OEID. Er kan heel snel een prototype van een applicatie beschikbaar worden gesteld waarin gegevens en aggregaties worden getoond, waarom door de business is verzocht.

Analyse van de gepresenteerde data kan vervolgens aanleiding geven tot een gewijzigde of nieuwe vraagstelling. Uitbreiding of aanpassing van de applicatie is dan relatief eenvoudig, zodat aan de nieuwe wensen snel gehoor kan worden gegeven. Dit vormt immers de kern van agile BI : de mogelijkheid om snel in te spelen op veranderende behoeften van de business.

Mogelijk moet als onderdeel van de gewijzigde of nieuwe vraagstelling in een kort tijdsbestek nieuwe, additionele data in Endeca Server worden geladen. De Integration Suite biedt hiervoor zoals eerder gezien goede mogelijkheden.

Endeca Studio
Afbeelding 4 – Impressie van de mogelijkheden van Endeca Studio (bron: QuickStart Guide)

OEID ten opzichte van traditioneel BI

Het belangrijkste verschil tussen de agile vorm van BI met OEID, en de klassieke manier van BI met bijvoorbeeld OBI EE, ligt in het feit dat de ‘time-to-value’ bij OEID over het algemeen een stuk korter zal zijn. Waar traditionele BI-oplossingen vrij rigide kunnen zijn in de implementatie van nieuwe functionaliteit, is dit bij OEID een relatief kort traject, gebaseerd op agile werken. Bijkomend voordeel is de ondersteuning voor de analyse van ongestructureerde data.

Dit laatste aspect maakt dat OEID verbanden kan blootleggen tussen diverse datasets die met traditionele BI niet aan het licht zouden zijn gekomen. OEID kan derhalve vragen van organisaties beantwoorden waarvan men niet wist dat deze bestonden.

Dit kan een grote toegevoegde waarde bieden, naast de beantwoording van vooraf opgestelde vragen door traditionele BI.

Conclusie

OEID is een krachtig platform voor agile BI. De ‘time-to-value’ van in Endeca Server geladen, en met behulp van Endeca Studio geanalyseerde data, kan kort zijn.

Waar traditionele BI-oplossingen vooral antwoord geven op vooraf gedefinieerde vragen levert het ‘grasduinen’ in, en de analyse van, data in OEID mogelijk antwoorden op vragen die voorheen nog niet gesteld waren. Gaandeweg het proces van agile BI met OEID ontstaan nieuwe inzichten en uitgangspunten voor diepgaandere analyse.

Met name de mogelijkheid om ongestructureerde data van bijvoorbeeld websites, social-media-platforms als Twitter en Facebook, en tekstbestanden op (corporate)-filesystemen te laden en te analyseren, is hier erg belangrijk. Dit nieuwe perspectief kan een organisatie net dié inzichten geven om de concurrentie een stap voor te blijven.

OEID is niet per se een vervanging voor bestaande BI-oplossingen, maar geldt meer als aanvulling. De grote kracht die erin schuilt, analyse van ongestructureerde data, levert in combinatie met de informatie uit een reeds bestaand BI-systeem alleen maar meer inzichten op voor de betreffende organisatie.

In een volgend Whitebook zal het werken met OEID in de praktijk, aan de hand van een aantal voorbeelden, nader worden belicht. Een impressie van wat er in de praktijk met OEID mogelijk is, en de soort vragen die beantwoord kunnen worden, wordt gegeven in deze video van Whitehorses-partner Aorta BI.

Referenties

Waardering:
 

Reacties

Hoe meer mensen Endeca "Entdecken" hoe beter als het is. Bedankt voor je goede uiteenzetting van Endeca Information Discovery. 

De mogelijkheden met dit nieuwe product zijn mijn inziens eindeloos. 

Let's discover data!

Nieuwe reactie inzenden

De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.

Meer informatie over formaatmogelijkheden

CAPTCHA
Deze vraag is om te testen of u een persoon bent en om spam te voorkomen
Image CAPTCHA
Enter the characters shown in the image.