On 11/28/07, <b class="gmail_sendername">Grzegorz Chrupala</b> &lt;<a href="mailto:grzegorz.chrupala@computing.dcu.ie">grzegorz.chrupala@computing.dcu.ie</a>&gt; wrote:<div><span class="gmail_quote"></span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
You may have better luck checking out methods used in parsing natural<br>language. In order to use statistical parsing techniques such as<br>Probabilistic Context Free Grammars ([1],[2] ) the standard approach is to<br>extract rule probabilities from an annotated corpus, that is collection of
<br>strings with associated parse trees. Maybe you could use your 2/3 of<br>addresses that you know are correctly parsed as your training material.<br><br>A PCFG parser can output all (or n-best) parses ordered according to
<br>probabilities so that would seem to be fit your requirements.<br>[1] <a href="http://en.wikipedia.org/wiki/Stochastic_context-free_grammar">http://en.wikipedia.org/wiki/Stochastic_context-free_grammar</a><br>[2] <a href="http://www.cs.colorado.edu/~martin/slp2.html#Chapter14">
http://www.cs.colorado.edu/~martin/slp2.html#Chapter14</a><br>--<br>Best,<br>Grzegorz<br>--</blockquote><div><br>Hi Grzegorz,<br><br>Wow, Natural Language Processing looks quite complex! But it also seems to be closely related to my problem. If someone finds a &quot;NPL for dummies&quot; article or book I&#39;m interested. ;-)
<br><br>Thanks for your help,<br><br>Olivier.<br></div></div>