V datové tabulce je záznam o původní geolokaci projektu spolu s informací o nově odvozené geolokaci. Tam, kde je nová geolokace odvozena příliš extenzivně (např. rozpad projektu původně lokalizovaného na kraj do všech jeho obcí), je tedy možné vrátit se k původní geolokaci. (Prakticky by se to provedlo tak, že by se vybraly pro daný projekt (prj_id
) řádky se všemi kombinacemi hodnot sloupce geo_id_orig
a level_orig
).
Kvůli velikosti souborů výstupová tabulka neobsahuje všechna metadata o projektech a příjemcích. Ta lze podle potřeby připojit z jiných zdrojů.
Toto byla velká většina projektů.
Pro většinu projektů platilo několik jednoduchých pravidel, pokud projekt v datech neměl geolokaci na úrovni obce. Všechna pravidla byla ověřena alespoň na části dat, abychom měli jistotu, že aplikace pravidla nepřinese nesprávné výsledky u většího množství projektů.
Část projektů měla geolokaci zadanou na úrovni chráněné oblasti, což ale nebylo v původním exportu. Z dodatečných dat se podařilo většinu z nich přiřadit k CHKO/NP a pomocí geodat poté rozpadnout na jednotlivé obce překrývající se s těmito územími. Současný postup zahrnuje do projektu všechny obce, do kterých dané chráněné území zasahuje.
To jsou projekty, kde je např. jako místo realizace uveden zároveň Karlovarský kraj a město Třebíč.
V datech z léta 2020 jich asi 119.
U těch je potřeba úvaha a ruční zadání. Prakticky to vypadá tak, že skript vygeneruje excelový soubor, kde se do novéhou sloupečku zadá TRUE u řádků s tím geografickým údajem, kterých chceme použít. Pokud u nějakého projektu nezadáme TRUE u žádného řádku, použijou se všechny údaje.
Výsledný excelový soubor je potřeba uložit do adresáře data-manual
a znovu spustit skripty 09_resolve-complicated.Rmd
a 10_compile-export.Rmd
.
Následně skript na základě tohoto zadání všechny projekty rozpadne na obce - tj. pokud jsme u nějakého projektu zadali, že se má použít geolokace na uvedený ORP, skript projekt rozpadne do všech obcí daného ORP.
Zpracovaná data jsou exportována do datasetu Arrow ve formátu Parquet. Arrow je knihovna pro efektivní skladování a načítání dat využitelná v různých prostředích (R, Python, Java, JavaScript, Ruby, Rust, Go, Julia, Matlab aj.) Parquet je konkrétní formát skladování dat v souborech na disku.
Výstupem je adresář souborů zanořených ve struktuře podadresářů - v našem případě adresář data-output/dtl-all-arrow
. Z této struktury lze strojově odvodit datovou strukturu; členění dat do mnoha souborů umožňuje rychlé načítání části dat, např. pro jednotlivé OP nebo podle tzv. chunks (oddílů, na které jsou data rozdělena pro snadný export do většího množství Excel souborů.)
Jejich schéma (názvy sloupců, jejich obsah a datový typ) odpovídají schématu níže.
Pointblank Information |
---|
[2021-02-03|00:27:29]
Arrow dataset (parquet, 111 files)
exportRows
7,165,207
Columns
12
|
Table |
COExport všech upravených dat v jedné tabulce - pouze kódy území, bez metadat o projektech a příjemcích |
FORMAArrow dataset, členěný do parquet souborů podle OP, typu rozpadu, původu ID obce a oddílu pro export (chunk). |
Columns |
VYZNAM číslo projektu ZDROJ původní data, neupraveno |
VYZNAM pořadové číslo řádku v projektu ZDROJ generováno po rozpadu na obce |
VYZNAM úroveň dovozené geolokace ZDROJ dovozeno rozpadem na obce a ZÚJ HODNOTY obec, zuj |
VYZNAM kód obce nebo ZÚJ (pro MČ) bez prefixu NUTS ČÍSELNÍK ČSÚ číselník obcí (43), ZÚJ (51) ZDROJ vlastní dovození (viz výše) |
VYZNAM původní úrove HODNOTY kraj, orp, okres, obec, zuj POZOR pouze úroveň, ze které se data rozpadala na obce |
VYZNAM všechny původní geolokace pro daný FORMA obce a ZÚJ včetně NUTS prefixu, ORP a okres podle ČSÚ, kraj podle NUTS POZOR může obsahovat více hodnot oddělených čárkou; pouze pro úroveň, ze kterých se data rozpadala na obce ČÍSELNÍK ČSÚ: obec (43), ZÚJ (51), NUTS kraje (100), ORP (65), okes (109) |
VÝZNAM podrobná informace o způsobu dovození obce |
VYZNAM kód obce nebo ZÚJ (pro MČ) s prefixem NUTS ČÍSELNÍK po úpravě: ČSÚ číselník obcí (43), ZÚJ (51), NUTS kraje (100) |
VYZNAM zdroj informace o obci |
VYZNAM zkratka OP s mezerou a bez diakritiky: OP Z atd. (mezera, ne '_') HODNOTY OP D, OP Z, OP ZP, OP D, IROP, OP PPR, OP VVV ZDROJ převzato z původních dat |
VYZNAM číslo oddílu; oddíly čítají cca 500 000 řádků pro export do jednotlivých excelových souborů |
VÝZNAM základní informace o způsobu dovození obce |
2021-02-03 00:27:29 CET< 1 s2021-02-03 00:27:30 CET |