<p dir="ltr">Have you looked at tagsoup?</p>
<div class="gmail_quote">On Feb 20, 2014 3:30 AM, "Christian Maeder" <<a href="mailto:Christian.Maeder@dfki.de">Christian.Maeder@dfki.de</a>> wrote:<br type="attribution"><blockquote class="quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi,<br>
<br>
I've got some difficulties parsing "large" xml files (> 100MB).<br>
A plain SAX parser, as provided by hexpat, is fine. However, constructing a tree consumes too much memory on a 32bit machine.<br>
<br>
see <a href="http://trac.informatik.uni-bremen.de:8080/hets/ticket/1248" target="_blank">http://trac.informatik.uni-<u></u>bremen.de:8080/hets/ticket/<u></u>1248</a><br>
<br>
I suspect that sharing strings when constructing trees might greatly reduce memory requirements. What are suitable libraries for string pools?<br>
<br>
Before trying to implement something myself, I'ld like to ask who else has tried to process large xml files (and met similar memory problems)?<br>
<br>
I have not yet investigated xml-conduit and hxt for our purpose. (These look scary.)<br>
<br>
In fact, I've basically used the content trees from "The (simple) xml package" and switching to another tree type is no fun, in particular if this gains not much.<br>
<br>
Thanks Christian<br>
______________________________<u></u>_________________<br>
Glasgow-haskell-users mailing list<br>
<a href="mailto:Glasgow-haskell-users@haskell.org" target="_blank">Glasgow-haskell-users@haskell.<u></u>org</a><br>
<a href="http://www.haskell.org/mailman/listinfo/glasgow-haskell-users" target="_blank">http://www.haskell.org/<u></u>mailman/listinfo/glasgow-<u></u>haskell-users</a><br>
</blockquote></div>