Välkommen till ReStore
Data från många källor, inklusive administrativa register och undersökningar, registreras alltmer i samband med fullständig adressinformation. Under tidigare decennier innehöll många sådana datamängder bara ett postnummer eller platsnamn. Adressinformation är av stort värde för geografisk referens men den potentiellt komplexa strukturen av adresser måste förstås för att maximera potentiella fördelar för kartläggning eller datalänkning.
Adresser i praktiken
Det är viktigt att inse att lokaliseringsinformationen som registreras i de flesta postadresser inte direkt motsvarar de geografiska referenser som bifogas de flesta samhällsvetenskapliga datamängder. Detta kan illustreras genom några exempel.
Adressexempel 1:
Adress | Adresselement |
39 Acacia Avenue | Fastighetsnummer och gatuadress |
Silhurst | Poststad |
SH15 6BP | Enhetens postnummer |
I denna mycket enkelt exempel, alla nödvändiga element finns för att skapa en giltig postadress. Dessa inkluderar en fastighetsidentifierare (i det här fallet ett husnummer, även om det under andra omständigheter kan vara ett husnamn), genomfart (gatu), poststad och postnummer. Dessa element är helt tillräckliga för vardagliga ändamål som att skicka e-post eller besöka adressen. Men få av dessa element kommer sannolikt att entydigt relatera till de geografiska enheter och koder som används för de flesta samhällsvetenskapliga uppgifter. Husnummer 39 kan motsvara exakt en fastighet som är en studieenhet. Men om forskaren verkligen är intresserad av hushåll, individer eller företag är det viktigt att inse att nummer 39 kanske inte är tillräckligt för att entydigt identifiera intressanta enheter. ”Acacia Avenue” kommer inte att likställas direkt med någon statistisk enhet – en lång gata kommer faktiskt ofta att skära igenom många olika geografiska områden med olika koder och tillgängliga statistiska data. ’Silhurst’, en poststad, är en geografisk enhet definierad för postleveransändamål och kommer sannolikt inte att överensstämma exakt med någon folkräkningsavdelning, superproduktionsområde, kommunfullmäktige eller annat standard geografiskt område. Enhetens postnummer ’SH15 6BP’ omfattar inte i sig självt ett statistiskt område utan kan associeras med de flesta officiella geografiska enheter med standardkataloger. Det är troligt att adressen i sin helhet kan matchas framgångsrikt till en eller flera poster i de stora nationella adresslistorna. Det är lika möjligt att det av olika skäl inte kan matcha unikt – till exempel om det finns mer än en underavdelning av fastigheten vid Acacia Avenue 39 eller om det finns mer än en Acacia Avenue i Silhurst. Den ytterligare säkerhet som tillhandahålls av enhetens postnummer, som vanligtvis hänför sig till cirka 15 adresser, förklarar postens användbarhet som en lokalreferens.
Adressexempel 2:
Adress | Adresselement |
Geo-Refer Enterprises Inc. | Företagsnamn |
Flat B | Fastighetsindelning |
39 Acacia Avenue | Fastighetsnummer och gatuadress |
North End | Ortadress |
Silhurst | Poststad |
Loamshire | County |
SH15 6BP | Enhetens postnummer |
I detta exempel har ytterligare fyra element lagts till i adressexempel 1, som visar ytterligare aspekter av adressstrukturen. Geo-Refer Enterprises Inc. verkar vara ett företagsnamn. Detta är troligtvis viktigt för vissa forskare, men det är inte formellt en del av adressen. Det kan vara den registrerade adressen till många olika företag och företagsnamn kan ofta komma att ändras medan fastigheten förblir densamma. ”Flat B” föreslår att fastigheten vid ”39 Acacia Avenue” är uppdelad. Vissa bostadsadresser används också som företagsadresser och det kan vara mycket svårt att skilja ut dessa olika typer av adresser för analytiska ändamål. På samma sätt är det svårt att bekräfta huruvida en post relaterad till ”Flat B, 39 Acacia Avenue” faktiskt motsvarar samma adress som en post för ”39 Acacia Avenue”. I detta exempel har ett lokalnamn ”North End” inkluderats.Orten är en nödvändig del av Royal Mail-postadressen om det finns mer än en ”Acacia Avenue” i ”Silhurst” poststad. Orten har ingen starkare koppling till administrativa eller statistiska geografier än poststaden. Länsnamnet ingår ofta i postadresserna, men är inte ett krav och det kan inte garanteras att länet kommer att motsvara det administrativa länet med samma namn.
Adressexempel 3:
Adress | Adresselement |
501a Halfway Street | Fastighetsnummer och gatuadress |
Sidcup | Posta stad |
Kent | County |
DA15 7XZ | Enhetens postnummer |
Även om denna exakta adress är fiktivt, dess huvudsakliga element är äkta och det tjänar till att visa att det inte finns någon post mellan post och administrativ geografi. Poststaden Sidcup faller inte inom det administrativa länet Kent utan inom London Borough of Bexley. Postområdet DA15 avser Dartford, som faktiskt ligger i Kent. Halfway Street faller huvudsakligen inom London Borough of Bexley men sträcker sig ett litet avstånd in i London Borough of Greenwich. Det bör således vara tydligt att inget av postadresselementen bör användas direkt som grund för geografisk referens. Antingen den fullständiga, strukturerade adressen eller enhetens postnummer ska matchas mot en betrodd katalog för att ge motsvarande geografiska koder med en lämplig upplösningsnivå.
Om det är möjligt bör forskare försöka spela in, lagra och manipulera adressinformation i ett strukturerat format, även om en helt standardkompatibel adress inte kan produceras. Att dela upp adresser i separata fält och kräva att alla huvudelement ska avgränsas tydligt kommer alltid att öka användningen av adressinformation och hjälpmatchning. Textsträngsmatchning av adresser är komplex och det finns många orsaker till potentiell förvirring, inklusive variantstavningar, flera språk och variantförkortningar. Dessa minskas mycket när informationen är tydligt strukturerad. Forskare som behöver göra storskalig matchning av adresslistor bör överväga att använda programvara eller tjänster för kommersiell adressmatchning.