Welkom bij ReStore
Gegevens uit vele bronnen, waaronder administratieve dossiers en enquêtes, worden steeds vaker geregistreerd in combinatie met volledige adresinformatie. In de afgelopen decennia bevatten veel van dergelijke datasets alleen een postcode of plaatsnaam. Adresinformatie is van grote waarde voor geografische verwijzingen, maar de potentieel complexe structuur van adressen moet worden begrepen om de potentiële voordelen voor mapping of datakoppeling te maximaliseren.
Adressen in de praktijk
Het is belangrijk om te erkennen dat de locatie-informatie die in de meeste postadressen is vastgelegd, op geen enkele manier gelijk is aan de geografische verwijzingen die aan de meeste sociaalwetenschappelijke datasets zijn gekoppeld. Dit kan worden geïllustreerd aan de hand van enkele voorbeelden.
Adresvoorbeeld 1:
Adres | Adreselementen |
39 Acacia Avenue | Propertynummer en straatadres |
Silhurst | Poststad |
SH15 6BP | Eenheid postcode |
In deze zeer eenvoudig voorbeeld, alle vereiste elementen zijn aanwezig om een geldig postadres te maken. Deze omvatten een eigendomsidentificatie (in dit geval een huisnummer, hoewel het in andere gevallen een huisnaam kan zijn), doorgaande (straat) naam, postplaats en postcode. Deze elementen zijn volkomen voldoende voor alledaagse doeleinden zoals het bezorgen van post of het bezoeken van het adres. Er zijn echter maar weinig van deze elementen die ondubbelzinnig verband houden met de geografische eenheden en codes die voor de meeste sociaalwetenschappelijke gegevens worden gebruikt. Huisnummer ‘39’ kan exact overeenkomen met één eigenschap die een studie-eenheid is. Als de onderzoeker echter echt geïnteresseerd is in huishoudens, individuen of bedrijven, is het belangrijk om te erkennen dat nummer 39 mogelijk niet voldoende is om de eenheden van interesse ondubbelzinnig te identificeren. ‘Acacia Avenue’ is niet direct gelijk aan een statistische eenheid – inderdaad, een lange straat loopt vaak door veel verschillende geografische gebieden met verschillende codes en beschikbare statistische gegevens. ‘Silhurst’, een poststad, is een geografische entiteit die is gedefinieerd voor het bezorgen van post en het is zeer onwaarschijnlijk dat deze exact overeenkomt met een volkstellingafdeling, super outputgebied, gemeentelijk district of ander standaard geografisch gebied. De eenheidspostcode ‘SH15 6BP’ omvat op zichzelf geen statistisch gebied, maar kan worden geassocieerd met de meeste officiële geografische eenheden met behulp van standaardgidsen. Het is waarschijnlijk dat het volledige adres met succes kan worden gekoppeld aan een of meer vermeldingen in de belangrijkste nationale adressenlijsten. Het is evengoed mogelijk dat het om verschillende redenen niet op unieke wijze overeenkomt – bijvoorbeeld als er meer dan één onderverdeling van het onroerend goed is op 39 Acacia Avenue, of als er meer dan één Acacia Avenue in Silhurst is. De extra zekerheid die de postcode van de eenheid biedt, die doorgaans betrekking heeft op ongeveer 15 adressen, verklaart het nut van de postcode als locatiereferentie.
Adresvoorbeeld 2:
Adres | Adreselementen |
Geo-Refer Enterprises Inc. | Bedrijfsnaam |
Appartement B | Onderverdeling onroerend goed |
39 Acacia Avenue | Propertynummer en straatadres |
North End | Plaatsadres |
Silhurst | Poststad |
Loamshire | Provincie |
SH15 6BP | Postcode van eenheid |
In dit voorbeeld zijn vier extra elementen toegevoegd aan adresvoorbeeld 1, die aanvullende aspecten van adresstructuur demonstreren. Geo-Refer Enterprises Inc. lijkt een bedrijfsnaam te zijn. Dit is waarschijnlijk belangrijk voor sommige onderzoekers, maar het maakt formeel geen deel uit van het adres. Dit kan het geregistreerde adres zijn van veel verschillende bedrijven en bedrijfsnamen zijn vaak onderhevig aan regelmatige wijzigingen terwijl het onroerend goed zelf hetzelfde blijft. “Flat B” suggereert dat het pand aan “39 Acacia Avenue” is onderverdeeld. Sommige woonadressen worden ook als bedrijfsadressen gebruikt en het kan erg moeilijk zijn om deze verschillende soorten adressen voor analytische doeleinden te scheiden. Evenzo is het moeilijk te bevestigen of een record met betrekking tot “Flat B, 39 Acacia Avenue” daadwerkelijk overeenkomt met hetzelfde adres als een record voor “39 Acacia Avenue”. In dit voorbeeld is een plaatsnaam “North End” opgenomen.De plaats is een noodzakelijk onderdeel van het Royal Mail-postadres als er meer dan één “Acacia Avenue” in de “Silhurst” -poststad is. De plaats vertoont geen sterkere associatie met administratieve of statistische geografieën dan de poststad. De naam van het district komt vaak voor in postadressen, maar is geen vereiste en het kan niet worden gegarandeerd dat het district overeenkomt met het administratieve district met dezelfde naam.
Voorbeeld van adres 3:
Adres | Adreselementen |
501a Halverwege Street | Huisnummer en straatadres |
Sidcup | Poststad |
Kent | Provincie |
DA15 7XZ | Postcode van eenheid |
Hoewel dit exacte adres is fictief, de belangrijkste elementen ervan zijn echt en het dient om de discrepantie tussen postale en administratieve regio’s aan te tonen. De poststad Sidcup valt niet onder het administratieve graafschap Kent, maar binnen de London Borough of Bexley. Het postdistrict DA15 heeft betrekking op Dartford, dat eigenlijk in Kent ligt. Halfway Street valt voornamelijk binnen de London Borough of Bexley, maar strekt zich een klein eindje uit in de London Borough of Greenwich. Het moet dus duidelijk zijn dat geen van de postadreselementen rechtstreeks als basis voor geografische verwijzingen mag worden gebruikt. Het volledige, gestructureerde adres of de postcode van de eenheid moet worden vergeleken met een vertrouwde directory om overeenkomstige geografische codes met een passend oplossingsniveau te bieden.
Waar mogelijk moeten onderzoekers proberen vast te leggen, op te slaan en te manipuleren adresinformatie in een gestructureerd formaat, zelfs als er geen volledig standaard-compatibel adres kan worden geproduceerd. Adressen opsplitsen in afzonderlijke velden en vereisen dat elk van de belangrijkste elementen duidelijk wordt afgebakend, zal altijd de bruikbaarheid van de adresinformatie vergroten en het matchen helpen. Het matchen van adressen tussen tekstreeksen is complex en er zijn veel oorzaken van mogelijke verwarring, waaronder spellingsvarianten, meerdere talen en afkortingen. Deze worden veel verminderd wanneer de informatie duidelijk gestructureerd is. Onderzoekers die op grote schaal adreslijsten moeten matchen, zouden moeten overwegen om commerciële software of services voor het matchen van adressen te gebruiken.