今日もまた踏みました

非定期更新:主に何とも言えない事態にあった際に更新しています

正規表現で思いっきり勘違いした

HTMLからTABLEの中を正規表現で抜き出そうとしたが中々うまくいかなかった

古くからあるWEBサイトから情報をピックアップするのが目的なのだが、idもなければnameも無い、構成がTABLEばかりと何とも抜出しにくい

<TABLE>
<TR><TD>項目1</TD><TD>値1</TD></TR>
<TR><TD>項目2</TD><TD>値2</TD></TR>
</TABLE>

これに対して、"(<TR>.+?項目2.+?</TR>)"の様に作成した所、項目1も取れてしまう

完全に勘違いしていて、特に何もしていない場合は前から一致させる
その為、"(<TR>.+?項目2)"とすると

<TABLE>
<TR><TD>項目1</TD><TD>値1</TD></TR>

<TR><TD>項目2</TD><TD>値2</TD></TR>
</TABLE>

が一致してしまう
その為「<TR>」が一致してから「項目2」まで一致するという事らしい
いつもすんなりいっていたのは、idでTABLEを絞り込めていたかららしい

諦めて「<TR> ~ </TR>」を切り出してから、TDで分割する事にした