Perspectief: applicatie

Applicatiecomponenten voor gegevenswerking in gelaagde, decentrale netwerken

Dit document richt zich op de uitwerking van een gelaagde, decentraal netwerk van BVOs, wat in TEHDAS2 een federatieve BVO wordt genoemd (federated SPE). De EHDS is in essentie federatief ontworpen: we willen uiteindelijk gezondheidsgegevens uit heel Europa kunnen aanwenden voor secundair gebruik. Tegelijkertijd willen we dat gezondheidsgegevens zoveel mogelijk binnen de landsgrenzen blijven. Om dit mogelijk te maken is ten minste een architectuur nodig voor decentrale gegevensverwerking tussen landen. Hierin is voorzien dat landelijke knooppunten gezamenlijk analyses kunnen uitvoeren, onder regie van een centraal knooppunt op Europees niveau. Deze aanpak is uitgewerkt in TEHDAS2 M7.4 hoofdstuk 5 (SPE federation p. 42) en hoofdstuk 6 (Implementing federated computing p. 50). In dit document passen wij dezelfde ontwerpprincipes toe om binnen een land een LDN voor decentrale informatieverwerking mogelijk te maken.

Decentrale gegevensverwerking gaat uit van een netwerk van datastations die met elkaar verbonden zijn. De manier waarop deze datastations zijn verbonden (de zogenaamde netwerk topologie) is bepalend voor de architectuur van de federatieve BVO. We kennen grofweg drie netwerk topologieën¹: centraal, decentraal en gedistribueerd.

Soorten netwerken: a) centraal, b) decentraal, c) distribueerd.

Federatieve BVOs kennen twee archetypes:²

Datastations zijn verbonden met één centrale server, met andere woorden een federatie BVO met een centraal netwerk (ook wel bekend als een hub-and-spoke netwerk).
Datastations zijn met elkaar verbonden door middel van een een distribueerd netwerk (ook wel peer-to-peer genoemd).

Gefedereerde gegevensverwerking met een a) centrale aggregatie server, en b) *peer-to-peer* netwerk.

De meest gebruikte vorm van gefedereerde gegevensverwerking gaat uit van een centrale server die de datastations aanstuurt. Het concept van een Federated Database System (FDBS) is in 1985 beschreven en wordt al jaren gebruikt voor het uitvoeren van gefedereerde analyse (queries) over meerdere databases.³ Het concept van gefedereerd leren zoals in 2017 door Google is geintroduceerd⁴ maakt ook gebruik van een centrale server.

In de beschrijving van datastations gaan we dus uit van een centrale server, waarop de data gebruiker inlogt om toegang te krijgen tot de federatieve BVO. Federatieve BVOs met een peer-to-peer netwerk zijn expliciet niet in scope van de architectuur zoals hier beschreven is.

Daarnaast moet het in de context van de EHDS mogelijk zijn om te werken met federations of federations. De decentrale BVO die we voor ogen hebben kent een gelaagdheid van knooppunten. Denk bijvoorbeeld aan een zorginstelling die participeert in een regionale federatieve BVO, waarbij vervolgens verschillende regionale knooppunten opgaan in een landelijk federatief netwerk. Daarbovenop kunnen landelijke knooppunten onderdeel uitmaken van een Europese federatie. In de uitwerking van de architectuur gaan we daarom uit van een decentraal netwerk dat een gelaagdheid kent van meerdere netwerken van BVOs (netwerk type b in bovenstaande illustratie).

De componenten van een decentraal netwerk van BVOs

In de uitwerking van de architectuur voor een decentraal netwerk van BVOs staan het datastation en de processing hub centraal. Deze twee applicatie componenten realiseren gezamenlijk de functionaliteit die nodig is in een decentrale BVO. In relatie tot het FAIR zandloper model, is het datastation onderdeel van laag 3, terwijl de FPH onderdeel is van laag 4. Conceptueel plaatsen we de verschillende vormen van gefedereerde gegevensbewerking in laag 5. Voortbouwend op TEHDAS2 maken we onderscheid tussen drie (arche)typen:

Gefedereerde analyse: statistieken worden lokaal berekend in een netwerk van datastations. Alleen geaggregeerde resultaten of samenvattende statistieken worden uit de datastations geëxporteerd, met bijbehorende waarborgen dat geen persoonsgegevens worden onttrokken. Gefedereerde analyse is in principe hetzelfde als een Federated Database System. Gefedereerde analyse is bij uitstek geschikt om gegevensverzoeken in de zin van EHDS artikel 69 uit te voeren. KIK-V zien wij als een referentie implementatie voor gefedereerde analyse.
Gefedereerd leren: modellen worden getraind en gevalideerd op de datastations zonder dat de ruwe data wordt gedeeld tussen de datastations. In plaats daarvan worden alleen de model updates gedeeld met de FPH om daarmee betere dataprivacy en beveiliging te bereiken. PLUGIN zien wij als een referentie implementatie voor gefedereerd leren.
Data pooling: de datastations kunnen worden gebruikt om data (tijdelijk) naar een andere BVO of daartoe bevoegd systeem te sturen, wat ook wel gegevensuitwisseling wordt genoemd. De EOSC-ENTRUST Blueprint geeft een gedetaileerde architectuctuur weer hoe datastations kunnen integreren met dergelijke Trusted Research Environment. Het mechanisme van data pooling kan ook gebruikt worden om data aan te leveren naar kwaliteitsregistraties. Strikt genomen is data pooling geen vorm van federated processing, maar meer een hybride BVO. Omdat er zoveel raakvlakken zijn en mogelijke toepassingen zijn is het in de scope van dit document meegenomen.

In dit hoofdstuk beschrijven we de applicatie componenten van een federatieve BVO, zijnde de drie soorten toepassingen in laag 5, de Processing Hub en het datastation. Daarbij gaan we ook expliciet in op de verschillende TEHDAS2 vereisten die zijn geformuleerd. Voor de andere, meer generieke componenten, gaan we uit van de beschrijving in TEHDAS2 en voeren we een kortere fit-gap analyse uit in hoeverre deze componenten passen in een federatieve BVO. Onderstaand tabel geeft een overzicht van de belangrijkste applicatie componenten binnen het FAIR zandloper vijf-lagen model.

Laag	Systemen
5	> Gefedereerde analyse > Gefedereerd leren > Data pooling
4	> Data Access Application Mgnt System > Catalogus gezondheidsgegevens > Processing hub
3	> Datastation
2	> Data ontsluitingssysteem
1	> bronsystemen

Overzicht van kerncomponenten in de architectuur van een federatieve BVO. De componenten die in deze architectuur centraal staan zijn vetgedrukt.

P. Baran. On Distributed Communications Networks. IEEE Transactions on Communications Systems, 12(1):1–9, March 1964. Conference Name: IEEE Transactions on Communications Systems. URL: https://ieeexplore.ieee.org/abstract/document/1088883 (visited on 2024-08-12), doi:10.1109/TCOM.1964.1088883. ↩
Nicola Rieke, Jonny Hancox, Wenqi Li, Fausto Milletarì, Holger R. Roth, Shadi Albarqouni, Spyridon Bakas, Mathieu N. Galtier, Bennett A. Landman, Klaus Maier-Hein, Sébastien Ourselin, Micah Sheller, Ronald M. Summers, Andrew Trask, Daguang Xu, Maximilian Baust, and M. Jorge Cardoso. The future of digital health with federated learning. npj Digital Medicine, 3(1):1–7, September 2020. Number: 1. URL: https://www.nature.com/articles/s41746-020-00323-1 (visited on 2023-04-23), doi:10.1038/s41746-020-00323-1. ↩
Dennis Heimbigner and Dennis McLeod. A federated architecture for information management. ACM Transactions on Information Systems, 3(3):253–278, July 1985. URL: https://dl.acm.org/doi/10.1145/4229.4233 (visited on 2023-04-23), doi:10.1145/4229.4233. ↩
Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Aguera y Arcas. Communication-Efficient Learning of Deep Networks from Decentralized Data. In Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, 1273–1282. PMLR, April 2017. URL: https://proceedings.mlr.press/v54/mcmahan17a.html (visited on 2024-08-25). ↩

Perspectief: applicatie

Applicatiecomponenten voor gegevenswerking in gelaagde, decentrale netwerken

De componenten van een decentraal netwerk van BVOs

Comments