Data stations als hoeksteen voor een decentraal netwerk van BVOs
Data stations en het zandloper model
Het concept van data stations staat centraal in dit document dat een architectuur beschrijft van een landelijk dekkend decentraal netwerk van BVOs ten behoeve van secundair gebruik. Het concept van data stations kent vandaag de dag veel verschillende verschijningsvormen:
- Het originele concept van PHT omschrijft data stations in de context van federated learning2, wat vervolgens is gegeneraliseerd om andere vormen van gefedereerde berekeningen te omvatten3.
- De FAIR principes zijn uitgewerkt in het concept van een FAIR data point, zijnde een data station gevuld met FAIR metadata dat is bedoeld als een gefedereerde oplossing voor een data catalogus.
- Het Programma KIK-V van het Zorginstituut heeft het concept van data stations geoperationaliseerd voor geautomatiseerde informatie-uitwisseling voor de VVT-sector, wat een vorm is van gefedereerde analyse.
- Data stations in de context van primair gebruik zijn conceptueel hetzelfde als de Shared Health Record component zoals gespecificeerd in de OpenHIE architectuur. RSO Zuid-Limburg werkt aan een primair data station op basis van openEHR1, een oplossingsrichting die ook in Scandinavië4 en Slovenië5 wordt gebruikt. Hoewel data stations voor primair gebruik veel overeenkomsten vertonen met data stations voor secundair gebruik, zijn er ook belangrijke verschillen in de technische kenmerken tussen deze systemen. Deze verschillen zitten bijvoorbeeld in snelheid (latency) en volume waarmee data in het station kan worden benaderd: voor primair gebruik moeten snel enkelvoudige records kunnen worden opgehaald, terwijl voor secundair gebruik grotere datasets bevraagd kunnen worden en hogere wachttijden acceptabel zijn.
Ondanks de vele verschijningsvormen zien we meer overeenkomsten dan verschillen in bestaande conceptualisaties en implementaties van data stations. Sterker nog, verschillende studies wijzen op de potentie die data stations bieden om tot betere standaardisatie en interoperabiliteit te komen. Het succes van het internet en andere technologieën met een sterk netwerkeffect, zoals het Linux/Unix operating systeem, heeft ons geleerd dat standaardisatie een groot goed is, maar dat we spaarzaam moeten zijn in het opleggen van standaarden. Dit concept is beschreven met een zandloper als metafoor67 (figuur 2) en gaat uit van het principe van maximale vrijheid voor toepassingen aan de bovenkant van de zandloper (het domein van de datagebruiker) èn maximale vrijheid voor de onderliggende basisinfrastructuur aan de onderkant (het domein van de datahouder). Ondanks deze vrijheid kan een hoge mate van interoperabiliteit worden gerealiseerd door het hart van de zandloper (het data station) in hoge mate te standaardiseren en uniformeren. Schultes (2023)8 heeft de principes van het zandloper model gecombineerd met de FAIR principes om tot een vijflagenmodel te komen.
Figuur 2. Het zandloper model als denkraam voor data interoperabiliteit. Bron: Schultes (2023).8
FAIR principes
De internationale FAIR-principes zijn richtlijnen voor de manier van beschrijven, opslag en publicatie van data. FAIR is een acroniem voor:
- Findable - vindbaar
- Accessible - toegankelijk
- Interoperable - uitwisselbaar
- Reusable - herbruikbaar
Alhoewel de principes oorspronkelijk zijn geformuleerd voor wetenschappelijke data, worden ze ook toegepast voor secundair gebruik van data die routematig wordt vastgelegd in bijvoorbeeld het reguliere zorgproces.
De vijf lagen van het zandloper model als denkraam
Het zandloper model gaat uit van vijf lagen die de data moeten laten stromen vanaf het eerste moment dat ze worden vastgelegd door de data houder (laag 1) tot en met het uiteindelijke secundair gebruik door de data gebruiker (laag 5).
Het FAIRificatie proces in de eerste twee lagen
In laag 1 wordt de data gecreëerd. Diegene die verantwoordelijk is voor het vastleggen van de data heeft hierin maximale vrijheid. Het vastleggen van de data kan gebeuren door een onderzoeker, die handmatig data verzameld, codeert en vastlegd als een onderzoeksdataset, maar kan ook worden gedaan in het primaire proces van de zorg waarbij allerlei zorgverleners in verschillende zorginformatiesystemen data vastleggen.
In laag 2 wordt een begin gemaakt met het standaardiseren van de data. Het is een soort trechter waar met gebruik van allerlei databewerkings tools de data en metadata worden omgezet naar gestructureerde formats die machine-leesbaar zijn en gebruik maken van gestandaardiseerde terminologie en informatieschemas.
Het data station in het hart van de zandloper
Laag 3 is het hart van de zandloper en fungeert als een brug tussen de twee onderste en twee bovenste lagen. In deze laag worden de data en metadata (1) klaargezet voor gebruik en FAIRificatie proces en (2) verbonden aan het netwerk van beveiligde verwerkingsomgevingen. Deze laag is het meest cruciale om interoperabiliteit te realiseren. Daarvoor wordt een set van minimale, open en technologie-neutrale standaarden gedefinieert. Het idee van een data station sluit aan bij het concept van data producten in de DSSC.
Data product
Primair gebruik heeft betrekking op de directe zorgverlening aan een patiënt, terwijl secundair gebruik betrekking heeft op het hergebruik van gegevens voor onder andere onderzoek, beleid en innovatie.
Bepaalde gegevens voor primair gebruik kunnen worden samengebracht in een dataproduct, zoals de patiëntsamenvatting. Deze bevat onder meer de essentiële patiëntgegevens, recepten en verstrekkingen. Een dataproduct wordt hierbij gedefinieerd als een concrete dataset die kan worden gedeeld tussen zorgverleners, systemen en instellingen. Ook voor secundair gebruik kunnen datasets worden samengesteld als dataproduct, bijvoorbeeld in OMOP-formaat.
Elk dataproduct bevat, naast de data zelf, ook metadata. Deze metadata beschrijven onder andere de structuur van de data, de inhoudelijke eisen waaraan de data voldoet, en verwijzingen naar de betekenis van de data (vastgelegd in een ontologie of domeinmodel). Daarnaast legt een dataproduct vast aan welke regels de data gebruiker moet voldoen voor toegang tot de data: hoe het mag worden gebruikt en welke beleidsregels van toepassing zijn voor toegang.
FAIR orchestratie
In laag 4 wordt het data station opgenomen in een netwerk om de data te verwerken en te verbruiken. Denk hierbij aan generieke voorzieningen zoals een catalogus en zoekfunctionaliteit (welke data stations hebben welke data?), het integreren wat data uit verschillende data stations en het uitvoeren van allerlei berekeningen op de data.
In laag 5 wordt aan de data gebruiker maximale vrijheid gegeven om allerlei diensten af te nemen en/of analyses te doen.
-
Ananya Choudhury, Leroy Volmer, Frank Martin, Rianne Fijten, Leonard Wee, Andre Dekker, and Johan van Soest. Advancing Privacy-Preserving Health Care Analytics and Implementation of the Personal Health Train: Federated Deep Learning Study. JMIR AI, 4(1):e60847, February 2025. Company: JMIR AI Distributor: JMIR AI Institution: JMIR AI Label: JMIR AI Publisher: JMIR Publications Inc., Toronto, Canada. URL: https://ai.jmir.org/2025/1/e60847 (visited on 2025-06-26), doi:10.2196/60847. ↩
-
Luiz Olavo Bonino da Silva Santos, Luis Ferreira Pires, Virginia Martinez, João Moreira, and Renata Guizzardi. Personal Health Train Architecture with Dynamic Cloud Staging. SN Computer Science, October 2022. doi:10.1007/s42979-022-01422-4. ↩
-
Hanna Pohjonen. Norway, Sweden, and Finland as forerunners in open ecosystems and openEHR. In Evelyn Hovenga and Heather Grain, editors, Roadmap to Successful Digital Health Ecosystems, pages 457–471. Academic Press, January 2022. URL: https://www.sciencedirect.com/science/article/pii/B9780128234136000112 (visited on 2025-02-05), doi:10.1016/B978-0-12-823413-6.00011-2. ↩
-
Samed Bajrić. Building a Sustainable Ecosystem for eHealth in Slovenia: Opportunities, Challenges, and Strategies. DIGITAL HEALTH, 9:20552076231205743, January 2023. Publisher: SAGE Publications Ltd. URL: https://doi.org/10.1177/20552076231205743 (visited on 2025-02-25), doi:10.1177/20552076231205743. ↩
-
Deborah Estrin and Ida Sim. Health care delivery. Open mHealth architecture: an engine for health care innovation. Science (New York, N.Y.), 330(6005):759–760, November 2010. doi:10.1126/science.1196187. ↩
-
Micah Beck. On the hourglass model. Communications of the ACM, 62(7):48–57, June 2019. doi:10.1145/3274770. ↩
-
Erik Schultes. The FAIR hourglass: A framework for FAIR implementation. FAIR Connect, 1(1):13–17, January 2023. URL: https://www.medra.org/servlet/aliasResolver?alias=iospress&doi=10.3233/FC-221514 (visited on 2023-04-04), doi:10.3233/FC-221514. ↩↩

