<div class="gmail_quote">On Tue, Aug 17, 2010 at 2:23 PM, Yitzchak Gale <span dir="ltr">&lt;<a href="mailto:gale@sefer.org">gale@sefer.org</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<div class="im">Michael Snoyman wrote:<br>
&gt; Regarding the data: you haven&#39;t actually quoted any<br>
&gt; statistics about the prevalence of CJK data<br>
<br>
</div>True, I haven&#39;t seen any - except for Google, which<br>
I don&#39;t believe is accurate. I would like to see some<br>
good unbiased data.<br></blockquote></div><br>To my knowledge the data we have about prevalence of encoding on the web is accurate. We crawl all pages we can get our hands on, by starting at some set of seeds and then following all the links. You cannot be sure that you&#39;ve reached all web sites as there might be cliques in the web graph but we try our best to get them all. You&#39;re unlikely to get a better estimate anywhere else. I doubt few organizations have the machinery required to crawl most of the web.<br>

<br>-- Johan<br><br>