セマンティクス

情報の信頼性

Berners-Lee 曰く、 he argued that part of the Semantic Web is about identifying the originator of information, and identifying why the information can be trusted, not just the content of the information itself. だそうです。 CNET Google exe…

 スクリーンスクレイピング

某リッチクライアント技術の説明会に参加してきたのですが、 そこで、ちょうど今私の困っている「HTML情報の抽出」がすでに行われていて、驚きました。 ただの勉強不足かもしれませんが、HTML情報を解析し、必要な情報だけを抽出することを 「スクリーンスク…

HTMLのパターンマッチ

任意のページからRSSタグなどの固定情報や、商品情報などある意味のかたまりを パーシングして取得するサンプルを作っている。 ブログなどのXHTMLのページはパーシングがしやすいが、 YahooやらAmazonやら、重要な情報が埋まっているページの多くがHTMLで、…