Seznam odebíraných webů v RSS pro Semanti–CS čtečku

Projekt syndikace aktualit z akademických webů členů iniciativy Semanti–CS pozvolna pokračuje. Základní principy architektury jsme představili v únoru na konferenci Znalosti 2011 ve Staré Lesné (Vysoké Tatry) [ZNALOSTI 2011] a představuje je dnes již veřejný prototyp – veškeré kódy jsou dostupné jako projekt Semanti–CS Updates na GitHubu. Zde můžete sledovat, nebo se také zapojit do aktuálního vývoje.

Jedním z principů bude „vše v RDF“, což platí i pro konfiguraci aplikace. Najít pro některé informace vhodné pojmy v dostupních schématech/slovnících není úplně triviální. Příkladem může být sezna odebíraných webů, resp. jejich RSS kanálů. Nakonec jsme si vystačili s tvrzením, že RSS kanál/soubor je dokumentem a naše aplikace je z pohledu slovníku FOAF agentem. Agentem může být jak osoba, tak neživá věc, aplikace, atd. Vytvořit informaci, že agent odebírá či sleduje nějaký dokument se bez nového pojmu neobejte. Na Open Vocab jsme založili vlastnost ov:syndicates. Pro ukázku data možné konfigurace naší čtečky.

#Identifikace nasi aplikace
<urn:app:semanti-cs:updates> a foaf Agent .

# Identifikace odebiraneho RSS
<http://example.org/rss> a foaf:Document .

# Nase aplikace odebira toto RSS
<urn:app:semanti-cs:updates> ov:syndicates <http://example.org/rss> .

 Vlastnost ov:syndicates je zatím v testovacím stavu, ale při dosavadním hledání jsme žádnou podobnou nenašli, takže doufáme ve všeobecnější adopci.

[ZNALOSTI2011] Josef Petrák, Vojtěch Svátek: Case study on aggregating RSS feeds using SPARQL; ve sborníku Znalosti 2011

Filed under  //  Projekty   Slovníky  
Comments (0)
Posted by Josef Petrák 

RDFa pro popis akademických skupin a jejich členů

Během tohoto týdne proběhne na konferenci Znalosti 2011 (viz lanyrd) workshop iniciativy Semanti–CS. Kromě jiného chceme představit základy značkování XHTML+RDFa, pomocí kterých lze obyčejnou webovou stránku obohatit o sémantiku dat. Sledujeme tím zejména možnost data stroje přečíst, integrovat a dále s nimi pracovat jako s klasickými RDF zdroji. Naší první aplikační doménou budou stránky akademických skupin zúčastněných v iniciativě Semanti–CS.

V přípravě je dokument, který má představit základní snippety použitelné na webové stránce pro přidání daného významu informacím. Pracovní verzi si již nyní můžete prohlédnout na wiki. Týká se popisu lidí, ale součástí budou i detaily, jak popsat nejen akademické projekty.

Další informace najdete na twitteru pod Twitter hastagem #znalosti2011 a budeme o výsledcích dále informovat.

Filed under  //  Mikroformáty   Projekty   Semanti–CS   Technologie  
Comments (0)
Posted by Josef Petrák 

Webová RSS čtečka – projekt pro ARC2 a SPARQL

Technologie RSS je známá i mimo prostředí sémantického webu – první verze 0.9 vznikla v dílnách firmy Netscape roku 1999 a s formátem RDF neměla nic společného. Jedná se o jednoduchý formát pro sledování změn stránek založený na XML syntaxi. Právě verze 1.0 přinesla reformulaci do RDF s tím, že byly navržena některá omezení nad rámec RDF umožňující zpětnou kompatibilitu. Z „Rich Site Summary“, jak zněl původní výklad zkratky RSS, se tak stalo „RDF Site Summary“. Ačkoliv byly uvedeny další verze, má smysl uvažovat právě o verzi 1.0 – je založena na RDF a umožňuje nejlepší možnost co do rozšiřování posílaných informací. Pro náš připravovaný projekt bude mít také další plus – můžeme s daty RSS kanálů pracovat jako s jakýmikoliv jinými metadaty: ukládat je do RDF databází, dotazovat pomocí SPARQLu, atd.

Pro iniciativu Semanti–CS chceme připravit webovou čtečku RSS kanálů. Databáze zdrojů by měla zahrnovat hlavně weby jednotlivých pracovišť a členů. Původně jsme uvažovali využít služby Yahoo! Pipes a pomocí ní sloučená data pouze vizualizovat na webu. Náš projekt ale půjde technologicky dál. RSS 1.0 jako jediný „RDF–based“ formát je absolutní podmínkou. Data chceme stahovat do jedné RDF databáze, zde je spravovat a také získávat pro finální prezentaci. Pro tento účel využijeme podporu grafů ve frameworku ARC2. Problémem služeb, které stahují data z různých zdrojů, je ztráta informace o jejich původu. Kvůli tomu pak nelze načtená data aktualizovat, protože RDF trojice ze všech zdrojů jsou uloženy v jediném uložišti. Pokud však uložíme data z každého RSS kanálu do zvláštního grafu, můžeme je kdykoliv smazat či aktualizovat, protože jsou jednoznačně identifikována v databázi. Samozřejmě, že při prezentaci dat můžeme dotazovat databázi nad všemi grafy současně.

Architektura této čtečky bude obsahovat několik jednoduchých částí:

  1. správu aplikace, kde se bude ručně definovat seznam načítaných zdrojů,
  2. asynchronně běžící část, která bude v nastavených intervalech, popř. podle konfigurace RSS kanálu (pomocí modulu RSS 1.0 Syndication Module) kontrolovat jednotlivé zdroje a data aktualizovat,
  3. webovou prezentaci aktuálně dostupných dat.

Zatímco implementace této čtečky je úkolem hlavně pro skupinu KEG, všechna pracoviště, které se chtějí do sdílení obsahu touto formou připojit, by si měly připravit kanály ve formátu RSS 1.0, pokud je ještě nemají. Stačí si pročíst poměrně jednoduchou specifikaci k formátu. Druhou a neméně důležitou věcí je dát o takovém kanálu vědět. V (X)HTML se pro tento účel používá tag link.

<link href="http://www.adresa/rss.souboru" 
  type="application/rss+xml" rel="alternate" 
  title="RSS 1.0 Kanál aktualit" />

Většina prohlížečů na takový odkaz reaguje zobrazením ikony v adresním řádku; po kliknutí na ni se buď zobrazí obsah souboru přímo v prohlížeči, nebo v asociované RSS čtečce.

Filed under  //  Projekty   Semanti–CS   Technologie  
Comments (0)
Posted by Josef Petrák