HTMLのパターンマッチ

任意のページからRSSタグなどの固定情報や、商品情報などある意味のかたまりを
パーシングして取得するサンプルを作っている。
ブログなどのXHTMLのページはパーシングがしやすいが、
YahooやらAmazonやら、重要な情報が埋まっているページの多くがHTMLで、頭を悩ましてます。


『HTMLのWebページの時代はもう終わっている。ような気がする。ただ生かされているだけ。
ブログの機能を組み込んだXHTMLでWebデザインを考える時だ。』
 −bitbizdesign.com


生かされているだけのHTMLを有効活用するには、どうすればいいだろうか。


HTMLをXHTMLに変換してみたが、正しく変換されない。
文字列として扱って、正規表現で切り取るしかないのかなぁ・・・。
どういう条件にすればいいんだろう。