HTMLのパターンマッチ
任意のページからRSSタグなどの固定情報や、商品情報などある意味のかたまりを
パーシングして取得するサンプルを作っている。
ブログなどのXHTMLのページはパーシングがしやすいが、
YahooやらAmazonやら、重要な情報が埋まっているページの多くがHTMLで、頭を悩ましてます。
『HTMLのWebページの時代はもう終わっている。ような気がする。ただ生かされているだけ。
ブログの機能を組み込んだXHTMLでWebデザインを考える時だ。』
−bitbizdesign.com
生かされているだけのHTMLを有効活用するには、どうすればいいだろうか。
HTMLをXHTMLに変換してみたが、正しく変換されない。
文字列として扱って、正規表現で切り取るしかないのかなぁ・・・。
どういう条件にすればいいんだろう。