Semanti-CS na konferenci Znalosti 2011

Na konferenci Znalosti 2011 ve Staré Lesné proběhl 31.1.2011 ve večerních hodinách neformální workshop iniciativy Semanti-CS. Zúčastnilo se ho přibližně 20 účastníků z různých organizací zabývajících se zpracováním znalostí, vesměs univerzitních pracovišť.

Na úvod prezentoval Vojtěch Svátek (KEG VŠE Praha) koncepci iniciativy Semanti-CS, a stručně informoval o jejích "komunikačních kanálech" (wiki, diskusní skupina, blog aj.). Zejména vyzval přítomné, aby se zaregistrovali na wiki (k datu workshopu se do sekce Participants uvedlo 25 uživatelů), a doplňovali tam nejen datové zdroje, ale i textové informace a odkazy na projekty, které s iniciativou alespoň volně souvisí.

J. Mynarz (NTK Praha) návazně informoval o posledních aktivitách ohledně sémantizace (a obecně zveřejňování) dat české veřejné správy. Jedná se zejména o iniciativu OpenData.cz, která je věcně i personálně úzce propojená s tématickou skupinou veřejné správy v rámci Semanti-CS.

Ústředním blokem workshopu se ukázal být průzkum možností sémantizace dat u jednotlivých výzkumných týmů, ze kterého se rozvinula intenzivní diskuse. Výchozí tezí bylo, že sémantizaci lze v první fázi nejlépe realizovat na "střední úrovni" akademických webů, které jsou typicky provozovány jednotlivými výzkumnými skupinami (ev. katedrami). Tyto weby jsou obvykle založeny na open source aplikaci (nejčastěji CMS) a spravovány některým ze členů skupiny, který může data nechat "triplifikovat" hromadně pro všechny kolegy. Proto je sémantizace průchodnější, než pro rozsáhlé centralizované systémy spravované výpočetním centrem univerzity (ev. fakulty), nebo naopak pro statické osobní stránky spravované jednotlivci.

Jako již fungující sémantické řešení "střední úrovně" byl zmíněn web výzkumné skupiny KEG na VŠE Praha, který využívá RDF framework ARC2 nad MySQL. Na pracovišti FI MU Brno (skupina T. Pitnera) byl vyvinut vlastní sémantický wiki portál s bug trackerem Trac a s úložištěm Sesame na pozadí; jeho autoři ovšem nebyli na workshopu fyzicky přítomni, totéž platí i o pracovišti ÚI SAV Bratislava (kontakt M. Laclavík), které uvažuje o sémantizaci dat ze své prozatím konvenční aplikace založené na PHP, a o pracovišti KSI MFF UK Praha (kontakt J. Dokulil), které je schopno s relativně malým úsilím vyexportovat do RDF data ze své katedrální databáze. Z přítomných vyjádřili zájem o zapojení do aktivity sémantizace dat zejména pracovníci Centra pre informačné technológie při TU Košice (J. Paralič, K. Machová, K. Furdík); K. Furdík se také zmínil o relevantní iniciativě EU, http://semic.eu. M. Bieliková z STU Bratislava upozorňovala, že některé skupiny, jako je právě její, mohou používat běžné wiki, u kterých nelze předpokládat možnost přímočaré sémantizace. Také R. Černoch ze skupiny IDA na FEL ČVUT Praha vyjádřil obavu z relativně vysokého objemu ruční práce (v jejich případě je ve webové aplikaci použito řešení založené na platformě Microsoftu). Organizátoři workshopu podpořili představu, že se bude přednostně počítat s pracovišti, která již mají data ve formátu vhodném pro sémantizaci.

Druhou stránkou mince jsou aplikace, které budou s daty pracovat - agregovaně vizualizovat, případně umožňovat aktivní dotazování a odvozování. M. Uller ze skupiny NIT, rovněž na FEL ČVUT, nabídl (již předběžně plánovanou) možnost zpracování a vizualizace sémantických dat (nejen) o akademické sféře v rámci portálu SoSIReČR, kde se aktuálně používá taxonomie ACM pro podobory informatiky. Účastníci se nakonec shodli, že pokud se podaří ukázat (vlastní nebo adaptované) demonstrační aplikace nad vzorky dat ze "střední úrovně", bylo by následně možné vyvinout na managementy univerzit tlak ohledně požadavku na začlenění podpory exportu v RDF do velkých univerzitních systémů. V rámci Semanti-CS (a její wiki) proto vznikne i přehled, které takové systémy se v ČR a na Slovensku aktuálně používají.

Josef Petrák a Jan Zemánek (KEG VŠE Praha) na závěr předvedli několik připravených příkladů, jak lze sémanticky publikovat akademická data pomocí vystavení snipetů RDFa na webových stránkách. Postupně na jejich základě vznikne soubor jednoduchých návodů - prozatím je na wiki uvedený návod pro informace o osobách, v přípravě je návod pro informace o projektech. Návody budou určené pro správce webů výzkumných skupin, kteří mají možnost ovlivnit obsah generovaného HTML a znají alespoň rámcově datový model RDF. Méně zkušeným tvůrcům je tým z VŠE připraven dále pomoci jednak formou vzorového doplnění RDFa do konkrétní stránky HTML, jednak konzultací k sémantice a zvyklostem používání hlavních slovníků (ontologií) a jejich prvků.

Vzhledem k nedostatku času, i kvůli prozatím omezeným zkušenostem většiny účastníků se sdílenými datovými slovníky, se neuskutečnil původně plánovaný "česko-slovenský VoCamp" – diskusní sekce o vhodnosti existujících slovníků pro relevantní aplikace. (Pozn.: Jediná zmínka o konkrétních slovnících se vlastně týkala taxonomie ACM v souvislosti s portálem SoSIReČR.) Realizace "VoCampu" byla tedy předběžně přeplánována na další ročník konference.

Filed under  //  Semanti–CS  
Comments (0)
Posted by vsvatek 

RDFa pro popis akademických skupin a jejich členů

Během tohoto týdne proběhne na konferenci Znalosti 2011 (viz lanyrd) workshop iniciativy Semanti–CS. Kromě jiného chceme představit základy značkování XHTML+RDFa, pomocí kterých lze obyčejnou webovou stránku obohatit o sémantiku dat. Sledujeme tím zejména možnost data stroje přečíst, integrovat a dále s nimi pracovat jako s klasickými RDF zdroji. Naší první aplikační doménou budou stránky akademických skupin zúčastněných v iniciativě Semanti–CS.

V přípravě je dokument, který má představit základní snippety použitelné na webové stránce pro přidání daného významu informacím. Pracovní verzi si již nyní můžete prohlédnout na wiki. Týká se popisu lidí, ale součástí budou i detaily, jak popsat nejen akademické projekty.

Další informace najdete na twitteru pod Twitter hastagem #znalosti2011 a budeme o výsledcích dále informovat.

Filed under  //  Mikroformáty   Projekty   Semanti–CS   Technologie  
Comments (0)
Posted by Josef Petrák 

Webová RSS čtečka – projekt pro ARC2 a SPARQL

Technologie RSS je známá i mimo prostředí sémantického webu – první verze 0.9 vznikla v dílnách firmy Netscape roku 1999 a s formátem RDF neměla nic společného. Jedná se o jednoduchý formát pro sledování změn stránek založený na XML syntaxi. Právě verze 1.0 přinesla reformulaci do RDF s tím, že byly navržena některá omezení nad rámec RDF umožňující zpětnou kompatibilitu. Z „Rich Site Summary“, jak zněl původní výklad zkratky RSS, se tak stalo „RDF Site Summary“. Ačkoliv byly uvedeny další verze, má smysl uvažovat právě o verzi 1.0 – je založena na RDF a umožňuje nejlepší možnost co do rozšiřování posílaných informací. Pro náš připravovaný projekt bude mít také další plus – můžeme s daty RSS kanálů pracovat jako s jakýmikoliv jinými metadaty: ukládat je do RDF databází, dotazovat pomocí SPARQLu, atd.

Pro iniciativu Semanti–CS chceme připravit webovou čtečku RSS kanálů. Databáze zdrojů by měla zahrnovat hlavně weby jednotlivých pracovišť a členů. Původně jsme uvažovali využít služby Yahoo! Pipes a pomocí ní sloučená data pouze vizualizovat na webu. Náš projekt ale půjde technologicky dál. RSS 1.0 jako jediný „RDF–based“ formát je absolutní podmínkou. Data chceme stahovat do jedné RDF databáze, zde je spravovat a také získávat pro finální prezentaci. Pro tento účel využijeme podporu grafů ve frameworku ARC2. Problémem služeb, které stahují data z různých zdrojů, je ztráta informace o jejich původu. Kvůli tomu pak nelze načtená data aktualizovat, protože RDF trojice ze všech zdrojů jsou uloženy v jediném uložišti. Pokud však uložíme data z každého RSS kanálu do zvláštního grafu, můžeme je kdykoliv smazat či aktualizovat, protože jsou jednoznačně identifikována v databázi. Samozřejmě, že při prezentaci dat můžeme dotazovat databázi nad všemi grafy současně.

Architektura této čtečky bude obsahovat několik jednoduchých částí:

  1. správu aplikace, kde se bude ručně definovat seznam načítaných zdrojů,
  2. asynchronně běžící část, která bude v nastavených intervalech, popř. podle konfigurace RSS kanálu (pomocí modulu RSS 1.0 Syndication Module) kontrolovat jednotlivé zdroje a data aktualizovat,
  3. webovou prezentaci aktuálně dostupných dat.

Zatímco implementace této čtečky je úkolem hlavně pro skupinu KEG, všechna pracoviště, které se chtějí do sdílení obsahu touto formou připojit, by si měly připravit kanály ve formátu RSS 1.0, pokud je ještě nemají. Stačí si pročíst poměrně jednoduchou specifikaci k formátu. Druhou a neméně důležitou věcí je dát o takovém kanálu vědět. V (X)HTML se pro tento účel používá tag link.

<link href="http://www.adresa/rss.souboru" 
  type="application/rss+xml" rel="alternate" 
  title="RSS 1.0 Kanál aktualit" />

Většina prohlížečů na takový odkaz reaguje zobrazením ikony v adresním řádku; po kliknutí na ni se buď zobrazí obsah souboru přímo v prohlížeči, nebo v asociované RSS čtečce.

Filed under  //  Projekty   Semanti–CS   Technologie  
Comments (0)
Posted by Josef Petrák 

Úkoly z první audiokonference

První „oficiální“ audio-konference Semanti-CS proběhla v úterý 21. 9. 2010 od 9 hodin. Účastníci: Jindra Mynarz (Národní technická knihovna + DERI Galway), Marek Obitko (Rockwell Automation + FEL ČVUT), Josef Petrák, Vojta Svátek, Milan Vachovec, Honza Zemánek (všichni KEG VŠE). Podělili jsme se o akutní úkoly týkající se wiki, která je naší znalostní bází, blogu, stejně jako přípravy databáze publikační činnosti na VŠE v SPARQL endpointu a jeho integraci se současnou webovou prezentací výzkumné skupiny KEG, která je také založena na RDF datech.

Domluvili jsme, že vedle wiki http://semanti-cs.org/ jako „skladiště informací“ bude zřízený také (tento) blog, kde budou hlavními informacemi poznámky k relevantním událostem ze světa standardů sémantického webu i samotné iniciativy Semanti–CS. Běžíme na službě Posterous, která sice neposkytuje žádné služby založené na RDF, ale jednoduchou úpravou šablon můžeme vystavit příspěvky pomocí XHTML+RDFa (slovníků SIOC a Dublin Core). Vedle blogu iniciativy Semanti–CS jako takového lze do budoucna dále uvažovat o syndikaci různých osobních českých a slovenských sémanticko-webových blogů, což je zatím je rámcový plán Přednost bude mít databáze publikační činnosti VŠE. Ta bude zintegrována pomocí aliasů (owl:sameAs) se současnými daty Knowledge Engineering Group.

Aby se „snížila laťka“ pro vystavení vlastních RDF dat výzkumných skupin, bude připraven tutoriál, který bude obsahovat mj. výseky (snippety) značkování pro RDF v HTML (XHTML+RDFa) pomocí nejzákladnějších slovníků (FOAF, DOAP apod.). Materiály by měly být inspirací i pro další práci v prosazování sémantiky na běžných českých a slovenských webech.

Workshop na konferenci Znalosti 2011 (http://znalosti.ics.upjs.sk/) bude zaměřen jednak na zkušenosti s využitím tohoto značkování jako takového, ale pokusíme se také domluvit rozšíření o další slovníky, např. pro pracovní týmy, semináře, publikace apod. Tento „česko–slovenský VoCamp“ by se měl konat v Tatrách na přelomu ledna a února příštího roku.

Filed under  //  Semanti–CS  
Comments (0)
Posted by Josef Petrák