正規表現で思いっきり勘違いした
HTMLからTABLEの中を正規表現で抜き出そうとしたが中々うまくいかなかった
古くからあるWEBサイトから情報をピックアップするのが目的なのだが、idもなければnameも無い、構成がTABLEばかりと何とも抜出しにくい
<TABLE>
<TR><TD>項目1</TD><TD>値1</TD></TR>
<TR><TD>項目2</TD><TD>値2</TD></TR>
</TABLE>
これに対して、"(<TR>.+?項目2.+?</TR>)"の様に作成した所、項目1も取れてしまう
完全に勘違いしていて、特に何もしていない場合は前から一致させる
その為、"(<TR>.+?項目2)"とすると
<TABLE>
<TR><TD>項目1</TD><TD>値1</TD></TR>
<TR><TD>項目2</TD><TD>値2</TD></TR>
</TABLE>
が一致してしまう
その為「<TR>」が一致してから「項目2」まで一致するという事らしい
いつもすんなりいっていたのは、idでTABLEを絞り込めていたかららしい
諦めて「<TR> ~ </TR>」を切り出してから、TDで分割する事にした