そうか! ・・・?
諸事情により一旦Plagger関係がふっとんで(全部なくなったわけじゃないけどある意味もっと複雑というか…)、それを期に色々基本というか昔読んだものや書いたものを振り返って思ったこと。
2008-04-05 勝手に飛ばすな
2008-04-26 頑張れ俺
Shibuya.Plaggers::Publish::Kwiki how to EntryFullText
これを僕は「RSSが配信されていようと役に立たないから自主的に範囲を指定しRSSを新しく作っています」と脳内変換していたからRSSを配信しているサイトであったとしても元のRSSはいらないと思っていたのだけれど、
1)RSS(RDFでもATOMでもいいけど)が配信されているサイトであれば一旦RSSを取得し
2)そのRSSからは当然元記事に絶対リンクが張られているからそこから元記事が何であるかを理解し、
3)元記事をextractで指定されたようにスクレイピングしてパースしてつなぎ合わせて配信する
という考え方なのかな。つまり全く新しいFeedを生成してるのではなく、RSSをアップグレードしてるというか。
…でもそうするとみんなcustom_feed_handleで普通のURL(/index.htmlとか)を指定していたのは…otsuneさんに以前頂いたコメント
通常のurlを渡すとPlagger::FeedParserがFeed::Findモジュールを使ってRSSを取得するようになっているので、それでそうなっているのでは?
をみんな理解していて「URL書いてもどうせ自動的に飛ばされる(からどっち書いても構わない)」とか「エディタから元ページ見たい時に楽」とかその程度の理由なのかなぁ…。よくわからん。
最初から新聞社とかそもそもRSS非対応のところばかりやってたからRSSが配信されてる場合にどう考えるかなんて全然でした。
中々本を読む時間もなく(寝ちゃうし)結局至極文型らしい推理なのでした(ソース嫁)。なんとなく解決気分。
追記:
force_upgrade
1を指定すると、RSS/Atom フィードにbodyが含まれている場合でも、extractによる切り出しを実行します。デフォルトは0で、extractをスキップします。
要するに、これを使えばよかったんですね。RSSを無視したい場合は(まだ試してないけど)。