Carview

#Carviewニュース
#なぜかY!傘下なのに微妙に違う。
#2015/3/30
author: naokii35
custom_feed_handle: http://carview.yahoo.co.jp/news
custom_feed_follow_link: http://carview.yahoo.co.jp/news/.*?/\d{8}\-\d{8}\-.*?
handle: http://carview.yahoo.co.jp/news/.*?/\d{8}\-\d{8}\-.*?
extract_encode: euc-jp
extract_xpath:
  title: //div[@class="lead"]/h2
  body1: //div[@class="area-content"]/p
  body2: //div[@class="area-photo"]
extract_after_hook: |
  $data->{title} = s/h2/h3/g;
  $data->{body} = $data->{body1} . $data->{body2};

いまやPlagger現役で使ってるの俺じゃないの疑惑。

二年の時を越えてまたぷらがー死んだ

http://d.hatena.ne.jp/naokii35/20121006

昔とまったく同じトラブルにあった(しかもこうしてブログに書いていた)のに、対処方法をちゃんと書いていなかったせいでいちから調べなおすことになりました。死。

Net::SSLeayがないとか、LIBEAY32.dllがないとかWinのSystemディレクトリには存在するので意味わからないんですけど、とりあえず疑惑としてはPlagger当時のバージョンよりこれらのDLLが新しくなっちゃったことによる障害?のようで、要するに古いバージョンのものを入れればいいようです。
で、それをどこで探すかなんですが、適当にDLLのなまえで検索した上位ではだめだったんですが、

http://www.nishimiyahara.net/2006/11/14/142040
Windows+ActivePerlにPlaggerを入れるの巻

で紹介されてる
http://www.zlatkovic.com/libxml.en.html

にあるファイルを使ってみたら動きました。なぜかはしりません。でも、動きます(ただし警告はでるのでやっぱりどこかおかしい様子)。

ちなみに再発の原因は、恐らく他の都合(重いからレジストリ関係とかを軽くするため)でPCを先祖がえりさせたことのようす。

サイト内の特定のノードを切り出す(再)

ここを更新してないだけで、日々未だ自分の情報収集の根幹はPla様です。Gunosy?ぺっぺっぺっ。

サイト内の特定のノードだけから切り出す

この時はまったく違う手段で解決したんだけど、東洋経済なんかもまったく同じ「URLにジャンル情報や作者情報が含まれていない」系だということにいまさら気づいて体温が上がっています。管理の都合上内部的にタグなりなんなり持っていない訳がないので、ケチな野郎だと思うだけなのですが。

ほかにも方法あるのかもしれないけど、URLだけでなく「どこから切り抜くか」を指定できればそこでメインカラムの記事に該当する部分だけを指定してどうにか…と思うんだけど、どう書けばいいんだろう。extract_after_hook:内で書いたりとかでどうにかなるんだろうか…

で、悩んでいた所

空繰再繰 Plagger::Plugin::Subscription::Parse

あーこれでいけそう。


と思ったら

Use of uninitialized value in pattern match (m//) at C:\Perl\site\lib\Plagger\Pl
ugin\Subscription/parse.pm line 49.
Use of uninitialized value in subroutine entry at C:\Perl\site\lib\Plagger\Plugi
n\Subscription/parse.pm line 80.

49は

>        if ( $xhtml =~ m{<title>\s*(.*?)\s*</title>}i ) {

80は

>    $tree->parse( $xhtml );

…。



(遠くで匙を投げる音)


あー。僕Plagger使いだしてもう何年経ってるかわかんないんすけど。

ぷらがー死んだよ(勝手に助かった)。

ある日、突然しにました。

PCのトラブルでよく初心者が口にする&教える側をげんなりさせる「いやぁ何にもしないのに昨日できてたことができなくなってんだよね」を素で自分が口にする日が来ようとは…

Plagger::Plugin::Publish::Gmail [error] Error while sending emails: Can't load 'C:/Perl/site/lib/auto/Net/SSLeay/SSLeay.dll' for module Net::SSLeay: load_file:?
w???????W???[?????????????????B at C:/Perl/lib/DynaLoader.pm line 230. at C:/Perl/site/lib/Net/SMTP/TLS.pm line 89
Compilation failed in require at C:/Perl/site/lib/Net/SMTP/TLS.pm line 89.
BEGIN failed--compilation aborted at C:/Perl/site/lib/Net/SMTP/TLS.pm line 89.
Compilation failed in require at C:\Perl\site\lib\Plagger\Plugin\Publish/Gmail.p
m line 240.

途中が文字化けしているのもよくわからないんだけど、とりあえず名前が挙げられている
SSLeay.dll
DynaLoader.pm
TLS.pm
Gmail.pm
ディレクトリを見てみたけど更新日はそれぞれ2年前とか。いまさらダメになる理由がわからない…そしてなんですかこの途中の文字化けは。

で、そもそもSSLeay.dllがloadできねえよ、って言われてるけどそのディレクトリはあるんだよね…


とりあえずサブのPCに入れてる方のPlaggerちゃんは生きてるから最悪の事態ではないんだけど、原因がまったく理解できないのがつらい…
ああ、誰か助けて…

追記:
とまる時にこんなものもでます。


追々記:
Libeay32.dllを拾ってきて入れなおしたら治った…なんで?結局原因わからず解決…

サイト内の特定のノードだけから切り出す

※10分くらいで解決してしまった。

EFTで配信しているもののメンテナンスをしているんだけど、最近たまにある悩み。

http://gendai.ismedia.jp/category/world

例えばこういうサイト、カテゴリに紐づいた記事は左カラムにあって視覚的には勿論区別されているんだけど、URLにカテゴリの要素がない(多分記事の通し番号を単純にふっているだけ)ので、普通に切り出そうとすると右カラムのアクセスランキングの記事が入ってきてしまう。

このサイトの場合だとdiv idがmain-columnのものの中から…という指定が出来れば解決する気がするんだけど、custom_feed_follow_linkってそういうのできるのかな…????

せめてタイトルに規則性があれば全部吸った後にextract_after_hookでフィルタリングできるんだけどねえ

あーつうか単体でRSS吐くようになってるじゃんこのサイト…
http://gendai.ismedia.jp/rss/world.rdf

JB Press

#2012/1/21
#JB Press
#http://jbpress.ismedia.jp/
#カテゴリ別に購読したい場合。
author: naokii35
custom_feed_handle: http://jbpress.ismedia.jp/category/.*?
custom_feed_follow_link: articles/-/\d{5}
handle: http://jbpress.ismedia.jp/articles/-/\d{5}
extract: <title>(.*?)</title>.*?<p class="firstp">(.*?)<!--/multipage-->
extract_capture: title body
extract_after_hook: |
  $data->{title} =~ s/(h1|h2)/h4/g;

仕様変更によりx-path一発で切り抜こうとすると変なおまけが沢山ついてきてしまうようになったのでふっつうに。

最近ビッグデータとか言う奴が多い

これって別になんも新しくなくね?誰でも予想できてたことじゃないの(まあ往々にしてこういうのってキャッチーな言葉をつけた人が勝ちで中身は至極当たり前だったりするのは知ってるつもりだけど)?

ていうか「日本ではまだあまり〜」「アメリカでは既に〜」っていつも言われているような事が言われているけど、このトピックに関してだけはデータを整形するための形態素分析と日本語の相性が激悪だっつう事を抜かしては語れない気がするんだけど、そういった記事を見かけないのよね。いや自分がまったく畑違いの業界にいるし別にアンテナも張ってないから既に言われていることなのかもしれないけどさ。

データをたくさん持てる事がすごいわけでは当然なく、それをいかに整形してまとめて要約して頭の悪い人間様でも全体像を把握できるようにしなければいけない。僕はその感覚にうっとりして一時テキストマイニングまんせーだったわけなんだけど、残念ながらあれから幾星霜、なのに仕組みというか理屈はそんなに進化してない気がして、しかもその原因は解決しようがない所に根っこがあるような気もして、残念な気分な訳です(よく言われる「東京都」は東京・都なのか東の京都なのか、みたいな…とかね)。いまだにぼくちゃんたちTrue Tellerとかつかってキャッキャウフフなんだろ?


追記:個人的には理屈でのきれいな解決が難しそうな以上、マシンパワーを使ったごり押し(「ビッグな」辞書データとか)総当り的なマッチョな方向で解決していくんだろうなーとうっすら思ったりしているけど、それはまた別の話。