[Document & Workflow] https と basic 認証を越えてページを取得・キャプチャする

ドキュメント作成で大量のスクリーンショットを取る必要があり、これを自動化する。

以前、このあたりでキャプチャ自体は取得できるようになっていたが、basic 認証でこけたので修正した。

あわせて前処理として、HTMLの取得とパースを行えるようにした。

つかいかた

こちらにまとめた。

webkit2png でキャプチャするため、事前にインストール。

% brew info webkit2png
webkit2png: stable 0.7
http://www.paulhammond.org/webkit2png/
/usr/local/Cellar/webkit2png/0.7 (3 files, 28K) *
  Built from source
From: https://github.com/Homebrew/homebrew/blob/master/Library/Formula/webkit2png.rb

種となるURIからHTMLをパースし、キャプチャするURIリストを作成する。

% ruby create_list.rb -i input.txt

リストをもとにキャプチャする。

% ruby capture_screen.rb output.txt

融通が利くようにステップを分けた。
目的は果たせそう。

補遺

nokogiri でパースする際の指定を doc.css('a') のようにしていたが、以下のエラーが出た。

.../uri/generic.rb:1203:in `rescue in merge': bad argument (expected URI object or URI string) (ArgumentError)

HTML a name Attribute でこけてしまった。
doc.css('a[href]')という指定が必要でした。