htmlのソースコードから要素・属性・値を抜き出す正規表現を作るスクリプト

静的なhtmlはそもそもテストにかけるものではない気がするのですが、

お客様からかなーり細かくレギュレーションや誤字脱字のチェックを言われているので、

この確認作業いっそ自動化しちゃいたい。

しちゃってください、という感じのお仕事をしていまして、

じゃあ、現状の納品するソースコードの形式が仕様通りかチェックする＆その誤字脱字が入るような手で入力する部分を抽出して仕様書からコピペした値と合っているか確認するプログラムを書こうと思っていたのですが、

仕様がなかなか決まらないため、現状の納品するソースコードが仕様通りかチェックする部分が書き直しになって、

連鎖的に他の部分も書き直しになって面倒くさい。

せめて、じゃあこの仕様通りかチェックする部分や値を抽出する部分を書く作業を少しでもラクしたい！

少なくとも次からは！

というわけで、htmlのソースコードから要素・属性・値を抜き出す正規表現を作るスクリプトを書きました。

html_sourceに要素の値などを取得してみたいhtmlのソースコードを入れて上書き保存して実行すると、要素や要素の属性、属性の値、要素の中の値が順にMatchDataの中に収まったものが出力されます。

最初は一行で全部の部分を最後の形に持っていきたかったのだけど、さすがにそれは無理でした。

いろいろ迷ったあげく、タグの一部ずついじっていけばもしかして出来るかもーと思ってやったら結構あっさり出来ました。

一行ずつ実行していくと、よくあるhtmlがとんでもない何かに成長していく様子が見れてとても楽しいです。

woshidan's blog