<div dir="ltr"><div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Dec 24, 2013 at 1:42 PM, Brandon Allbery <span dir="ltr"><<a href="mailto:allbery.b@gmail.com" target="_blank">allbery.b@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">
On Tue, Dec 24, 2013 at 2:20 PM, akira kawata <span dir="ltr"><<a href="mailto:a.kawashiro@gmail.com" target="_blank">a.kawashiro@gmail.com</a>></span> wrote:<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">

<div dir="ltr"><div><div>Did you mean HaXmL?<br></div></div></div></blockquote><div><br></div><div>Pick an XML parser. CDATA is an XML construct. Well-formed HTML *should* be XML compatible, although it's very rare to find proper well-formed HTML these days....</div>

<div><br></div></div></div></div></blockquote><div><br></div><div>This is actually not true; for example, not closing your <br> tags is perfectly valid HTML5 but invalid XML, and you can use > literals in script tags. The CDATA-inside-comments hack isn't necessary and hasn't been for years. You should try to parse HTML as HTML.</div>
<div><br></div><div>That being said, if html-conduit works for you, use it; if not, try TagSoup, which doesn't try to structure your data into a DOM.</div><div><br></div></div></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<span style="font-family:arial,sans-serif;font-size:13px"><html><br></span><span style="font-family:arial,sans-serif;font-size:13px"><p> hogehoge </p><br></span><span style="font-family:arial,sans-serif;font-size:13px"><script>if(</span><a href="http://window.mw/" target="_blank" style="font-family:arial,sans-serif;font-size:13px">window.mw</a><span style="font-family:arial,sans-serif;font-size:13px">){<br>
</span><span style="font-family:arial,sans-serif;font-size:13px">mw.loader.state({"<script>":"<</span><span style="font-family:arial,sans-serif;font-size:13px">/script>","user":"ready","</span><span style="font-family:arial,sans-serif;font-size:13px">user.groups":"ready"});<br>
</span><span style="font-family:arial,sans-serif;font-size:13px">}<br></span><span style="font-family:arial,sans-serif;font-size:13px"></script><br></span></html></blockquote><div><br></div><div>It's worth noting that the browser will probably interpret the quoted </script> as the end-of-script marker; Chrome did when I copied this into an HTML file and saved it. You need to replace it with "</scr" + "ipt>" or something similar. I'm a little surprised html-conduit doesn't interpret </script> as end-of-script.</div>
</div>