On Wed, Feb 6, 2013 at 2:09 AM, Simon Marlow <span dir="ltr">&lt;<a href="mailto:marlowsd@gmail.com" target="_blank">marlowsd@gmail.com</a>&gt;</span> wrote:<div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


This is slightly off topic, but I wanted to plant this thought in people&#39;s brains: we shouldn&#39;t place much significance in the average of a bunch of benchmarks (even the geometric mean), because it assumes that the benchmarks have a sensible distribution, and we have no reason to expect that to be the case.  For example, in the results above, we wouldn&#39;t expect a 14.7% reduction in runtime to be seen in a typical program.<br>


<br>
Using the median might be slightly more useful, which here would be something around 0% for runtime, though still technically dodgy.  When I get around to it I&#39;ll modify nofib-analyse to report medians instead of GMs.<br>

</blockquote><div><br></div>Using the geometric mean as a way to summarize the results isn&#39;t that bad. See &quot;How not to lie with statistics: the correct way to summarize benchmark results&quot; (<a href="http://ece.uprm.edu/~nayda/Courses/Icom6115F06/Papers/paper4.pdf">http://ece.uprm.edu/~nayda/Courses/Icom6115F06/Papers/paper4.pdf</a>).</div>

<div class="gmail_quote"><br></div><div class="gmail_quote">That being said, I think the most useful thing to do is to look at the big losers, as they&#39;re often regressions. Making some class of programs much worse is but improving the geometric mean overall is often worse than changing nothing at all.</div>

<div class="gmail_quote"><br>-- Johan</div><div class="gmail_quote"><br></div>