Centrālās statistikas pārvaldes saistītie atvērtie dati

Saistītie atvērtie dati (linked open data, LOD) ir atvērti un savstarpēji savienoti strukturēti dati. Tos spēj lasīt un uztvert ne tikai cilvēki, bet arī programmas, tai skaitā tādas, kas lieto mašīnlasīšanu un mākslīgo intelektu, ar semantisku vaicājumu palīdzību nolasot kontekstu, analizējot un izdarot secinājumus no saistīto atvērto datu tīklā esošās informācijas.

Viens no šo datu pamatprincipiem ir padarīt informāciju brīvi pieejamu pēc iespējas lielākam cilvēku, kā arī programmu lokam.

Saistītie atvērtie dati ir strukturēti trijniekos (triples), kas ir savienoti pēc priekšmeta (subject), izteicēja (predicate) un papildinātāja (object) principa. Piemēram:

lvcsb:LV0110000-2014 lvcsb:population 23269
lvcsb ir prefikss, lai saīsinātu un vienkāršotu pierakstu:
?prefix lvcsb: <http://lod.stat.gov.lv/LOD/>
LV0110000-2014 ir novērojums, datu kuba pamatvienība, kas atspoguļo un ietver noteiktu stāvokli konkrētā vietā un laikā, šajā gadījumā iedzīvotāju skaitu Jēkabpilī 2014. gadā.

Visiem priekšmetiem, izteicējiem un papildinātājiem (izņemot, ja papildinātājs ir skaitliska vērtība, piemēram, iedzīvotāju skaits vai teritorijas platība) ir jābūt unikāliem resursa identifikatoriem (URI), parasti hipersaitēm (URL), lai tiem varētu piekļūt un tos nebūtu iespējams sajaukt. Bieži tiek izmantoti arī izteicēji ir tas pats kas vai ir vienāds ar (same as), lai varētu savienot vienu un to pašu papildinātāju dažādos saistīto datu avotos, kuros nesakrīt URI vai arī nav droša veida, kā, piemēram, kāds noteikts identifikators/kods, kas sakrīt starp vairākiem saistīto datu avotiem.

Saistīto atvērto datu mērķis ir, izmantojot kopīgus datu struktūras un URI piešķiršanas pamatprincipus, kā arī atvērto datu filozofiju, savienot dažādus datu sniedzējus un padarīt vienkāršāku datu ievākšanas procesu, kas būtu universāla un saprotama kā cilvēkam, tā ieprogrammētiem automātiskiem rīkiem, izveidojot saistīto atvērto datu mākoni .

Papildus informācija par saistītajiem atvērtajiem datiem: https://www.w3.org/wiki/LinkedData.

Papildus informācija par datu kubiem: http://www2.cs.uregina.ca/~dbd/cs831/notes/dcubes/dcubes.html.

Pašlaik Centrālās Statistikas Pārvaldes saistītajos atvērtajos datos ir publicēta viena datu kuba datu kopa, kas ir pieejama SPARQL vaicājumiem http://lod.stat.gov.lv/sparql/.

Datu kopas:
http://lod.stat.gov.lv/LOD/populationAndArea – Iedzīvotāju skaits un platība gada sākumā dažādās teritoriālajās vienībās (pagasti, pilsētas, novadi, statistiskie reģioni, Latvija).

Dimensijas:
http://lod.stat.gov.lv/LOD/refArea – teritorija.
http://lod.stat.gov.lv/LOD/refPeriod – laiks (gads).

Rādītāji:
http://lod.stat.gov.lv/LOD/population – iedzīvotāju skaits.
http://lod.stat.gov.lv/LOD/area – kopējā platība.
http://lod.stat.gov.lv/LOD/areaLand – sauszemes platība.

Datu kuba pamatvienība ir novērojums, konkrētas teritorijas rādītāji noteiktā laikā. Piemēram, Rīgas rādītāji par 1981. gadu apskatāmi http://lod.stat.gov.lv/LOD/LV006-1981 No tiem uzzinām, ka iedzīvotāju skaits 1981. gadā Rīgā bija 842 327. Kā redzams, URI pierakstā atspoguļojas, kādas teritorijas un kura gada dati pieejami konkrētajā novērojumā. Savukārt koda versijas lapā atrodama papildus informācija, piemēram, no kura laika līdz kuram šis kods ir apzīmējis konkrēto teritoriju, kā arī teritorijas nosaukums latviešu un angļu valodā.

Shēma

SPARQL vaicājumu piemēri datu atlasei

Atlasa iedzīvotāju skaitu Rīgas statistikas reģionā visiem iespējamiem gadiem, attēlojot novērojuma URI, birkas latviešu valodā, gadu un iedzīvotāju skaitu:

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX qb: <http://purl.org/linked-data/cube#>
PREFIX lvcsb: <http://lod.stat.gov.lv/LOD/>
PREFIX lvcsb-geo: <http://lod.stat.gov.lv/LOD/territory/>

SELECT ?observation ?territory ?year ?pop WHERE {?observation a qb:Observation;
                lvcsb:refPeriod ?year;
                lvcsb:population ?pop;
                lvcsb:refArea ?area.
                ?area rdfs:label ?territory.
                ?area lvcsb:id 'LV006'.
                FILTER (lang(?territory) = 'lv')
                }

Atlasa teritorijas koda (lvcsb-geo:LV0800600) versiju vēsturi, attēlojot teritorijas, kurām ir bijis šis kods, tai skaitā no kura datuma līdz kuram, un teritorijas nosaukumu latviešu valodā:

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX qb: <http://purl.org/linked-data/cube#>
PREFIX lvcsb: <http://lod.stat.gov.lv/LOD/>
PREFIX lvcsb-geo: <http://lod.stat.gov.lv/LOD/territory/>

SELECT * WHERE {?code a lvcsb:refArea;
                lvcsb:version ?version.
                ?version lvcsb:begin ?begin;
                lvcsb:end ?end;
                rdfs:label ?label.
                FILTER(?code = lvcsb-geo:LV0800600)
                FILTER (lang(?label) = 'lv')
                }