Semanti-CS na konferenci Znalosti 2011
Na konferenci Znalosti 2011 ve Staré Lesné proběhl 31.1.2011 ve večerních hodinách neformální workshop iniciativy Semanti-CS. Zúčastnilo se ho přibližně 20 účastníků z různých organizací zabývajících se zpracováním znalostí, vesměs univerzitních pracovišť.
Na úvod prezentoval Vojtěch Svátek (KEG VŠE Praha) koncepci iniciativy Semanti-CS, a stručně informoval o jejích "komunikačních kanálech" (wiki, diskusní skupina, blog aj.). Zejména vyzval přítomné, aby se zaregistrovali na wiki (k datu workshopu se do sekce Participants uvedlo 25 uživatelů), a doplňovali tam nejen datové zdroje, ale i textové informace a odkazy na projekty, které s iniciativou alespoň volně souvisí.
J. Mynarz (NTK Praha) návazně informoval o posledních aktivitách ohledně sémantizace (a obecně zveřejňování) dat české veřejné správy. Jedná se zejména o iniciativu OpenData.cz, která je věcně i personálně úzce propojená s tématickou skupinou veřejné správy v rámci Semanti-CS.
Ústředním blokem workshopu se ukázal být průzkum možností sémantizace dat u jednotlivých výzkumných týmů, ze kterého se rozvinula intenzivní diskuse. Výchozí tezí bylo, že sémantizaci lze v první fázi nejlépe realizovat na "střední úrovni" akademických webů, které jsou typicky provozovány jednotlivými výzkumnými skupinami (ev. katedrami). Tyto weby jsou obvykle založeny na open source aplikaci (nejčastěji CMS) a spravovány některým ze členů skupiny, který může data nechat "triplifikovat" hromadně pro všechny kolegy. Proto je sémantizace průchodnější, než pro rozsáhlé centralizované systémy spravované výpočetním centrem univerzity (ev. fakulty), nebo naopak pro statické osobní stránky spravované jednotlivci.
Jako již fungující sémantické řešení "střední úrovně" byl zmíněn web výzkumné skupiny KEG na VŠE Praha, který využívá RDF framework ARC2 nad MySQL. Na pracovišti FI MU Brno (skupina T. Pitnera) byl vyvinut vlastní sémantický wiki portál s bug trackerem Trac a s úložištěm Sesame na pozadí; jeho autoři ovšem nebyli na workshopu fyzicky přítomni, totéž platí i o pracovišti ÚI SAV Bratislava (kontakt M. Laclavík), které uvažuje o sémantizaci dat ze své prozatím konvenční aplikace založené na PHP, a o pracovišti KSI MFF UK Praha (kontakt J. Dokulil), které je schopno s relativně malým úsilím vyexportovat do RDF data ze své katedrální databáze. Z přítomných vyjádřili zájem o zapojení do aktivity sémantizace dat zejména pracovníci Centra pre informačné technológie při TU Košice (J. Paralič, K. Machová, K. Furdík); K. Furdík se také zmínil o relevantní iniciativě EU, http://semic.eu. M. Bieliková z STU Bratislava upozorňovala, že některé skupiny, jako je právě její, mohou používat běžné wiki, u kterých nelze předpokládat možnost přímočaré sémantizace. Také R. Černoch ze skupiny IDA na FEL ČVUT Praha vyjádřil obavu z relativně vysokého objemu ruční práce (v jejich případě je ve webové aplikaci použito řešení založené na platformě Microsoftu). Organizátoři workshopu podpořili představu, že se bude přednostně počítat s pracovišti, která již mají data ve formátu vhodném pro sémantizaci.
Druhou stránkou mince jsou aplikace, které budou s daty pracovat - agregovaně vizualizovat, případně umožňovat aktivní dotazování a odvozování. M. Uller ze skupiny NIT, rovněž na FEL ČVUT, nabídl (již předběžně plánovanou) možnost zpracování a vizualizace sémantických dat (nejen) o akademické sféře v rámci portálu SoSIReČR, kde se aktuálně používá taxonomie ACM pro podobory informatiky. Účastníci se nakonec shodli, že pokud se podaří ukázat (vlastní nebo adaptované) demonstrační aplikace nad vzorky dat ze "střední úrovně", bylo by následně možné vyvinout na managementy univerzit tlak ohledně požadavku na začlenění podpory exportu v RDF do velkých univerzitních systémů. V rámci Semanti-CS (a její wiki) proto vznikne i přehled, které takové systémy se v ČR a na Slovensku aktuálně používají.
Josef Petrák a Jan Zemánek (KEG VŠE Praha) na závěr předvedli několik připravených příkladů, jak lze sémanticky publikovat akademická data pomocí vystavení snipetů RDFa na webových stránkách. Postupně na jejich základě vznikne soubor jednoduchých návodů - prozatím je na wiki uvedený návod pro informace o osobách, v přípravě je návod pro informace o projektech. Návody budou určené pro správce webů výzkumných skupin, kteří mají možnost ovlivnit obsah generovaného HTML a znají alespoň rámcově datový model RDF. Méně zkušeným tvůrcům je tým z VŠE připraven dále pomoci jednak formou vzorového doplnění RDFa do konkrétní stránky HTML, jednak konzultací k sémantice a zvyklostem používání hlavních slovníků (ontologií) a jejich prvků.
Vzhledem k nedostatku času, i kvůli prozatím omezeným zkušenostem většiny účastníků se sdílenými datovými slovníky, se neuskutečnil původně plánovaný "česko-slovenský VoCamp" – diskusní sekce o vhodnosti existujících slovníků pro relevantní aplikace. (Pozn.: Jediná zmínka o konkrétních slovnících se vlastně týkala taxonomie ACM v souvislosti s portálem SoSIReČR.) Realizace "VoCampu" byla tedy předběžně přeplánována na další ročník konference.