Das fiel erstmals dem kanadisch-US-amerikanischen Astronomen Simon Newcomb im Jahr 1881 auf. Da es damals noch keine Taschenrechner gab, musste er für seine Arbeit häufig Bücher voll mit Logarithmentafeln wälzen. Und wie er bemerkte, waren die Seiten für Zahlen, die mit einer Eins beginnen, viel abgegriffener als für solche, die mit einer Neun starten. Der Forscher gab sogar eine Formel für die Wahrscheinlichkeitsverteilung einer Ziffer N an: log(N + 1) – log(N), und veröffentlichte das Ergebnis im Fachmagazin »Journal of Mathematics«. Doch sein Fachaufsatz erregte kaum Aufmerksamkeit und geriet schnell in Vergessenheit.

Erst 57 Jahre später stieß der Physiker Frank Benford wieder auf den seltsamen Zusammenhang – lustigerweise auf genau die gleiche Weise: Er wunderte sich über die Abnutzung der vorderen Seiten von Logarithmentafeln. 1938 formulierte er das Gesetz nochmals und veröffentlichte es ebenfalls. In seiner Arbeit überprüfte er seine Behauptung anhand von 20 229 Beispieldaten. Dafür untersuchte er die Oberfläche von 335 Flüssen, die Bevölkerung von 3259 US-Städten, 104 Naturkonstanten, 1800 molare Massen, 5000 Einträge eines mathematischen Handbuchs, 308 Zahlen innerhalb einer Ausgabe des Magazins »Reader’s Digest« und die Hausnummern der ersten 342 Personen in einem Telefonbuch.

Wo Benfords Entdeckung gilt – und wo nicht

In all diesen grundverschiedenen Daten erkannte er den vorhergesagten logarithmischen Zusammenhang: Kleine Ziffern tauchten am Anfang einer Zahl sehr viel häufiger auf als größere. Manche Datensätze schienen der später als benfordsches Gesetz bekannten Regel besser zu folgen als andere – doch die meisten wiesen zumindest eine annähernd logarithmische Verteilung auf.

Natürlich gibt es Ausnahmen: Beispielsweise gehorcht die Körpergröße von Erwachsenen nicht dieser Regel – dort ist die Eins viel stärker überrepräsentiert. Die Zahlen auf Autokennzeichen entziehen sich ebenfalls, denn sie werden in manchen Ländern gleich verteilt vergeben. Und auch Telefonnummern folgen offensichtlich anderen Mustern.

Damit das benfordsche Gesetz zur Geltung kommt, müssen die Datensätze offenbar umfangreich sein und Zahlen verschiedener Größenordnungen enthalten. Doch wie lässt sich diese seltsame Verteilung überhaupt begründen? Tatsächlich spielen mehrere Faktoren eine Rolle, aber es gibt eine bemerkenswert einfache und anschauliche Erklärung für das Phänomen.

Betrachtet man einen Datensatz mit Zahlen unterschiedlicher Größe, kann man diese zunächst einmal gruppieren. Im Intervall von 1 bis 9 kommt jede Zahl gleich häufig vor. Bei Zahlen zwischen 1 und 19 ist die Eins als Anfangsziffer hingegen elfmal vertreten, während alle anderen nur einmal auftauchen. Erweitert man das Intervall bis 29, sind 1 und 2 deutlich häufiger als die anderen. Erst wenn man wieder alle Werte bis 99 betrachtet, hat auch die 9 aufgeholt. Aber in keinem dieser Intervalle taucht die 9 häufiger auf als irgendeine andere Ziffer. Der gleiche Zusammenhang ergibt sich für Hunderterschritte, Tausenderschritte und so weiter. Daher ist es nicht überraschend, dass in Datensätzen, die beispielsweise die Größe von etwas bemessen, kleine Ziffern an erster Stelle vermehrt vorkommen.

Diese Überlegung lässt sich formalisieren und führt in der Tat zur benfordschen Verteilung. Dazu bestimmt man den Anteil aller Zahlen innerhalb eines Intervalls von eins bis n, die mit einer Eins beginnen (f1(n)), sowie jener, die mit einer Zwei starten (f2(n)) et cetera. Wie sich herausstellt, sind die Zahlenfolgen f nicht konvergent, das heißt, für große Zahlen n nehmen die fs keinen festen Wert an, sondern schwanken zwischen verschiedenen Werten hin und her. Für f1(n) ergibt sich etwa ein Ergebnis zwischen 1/9 und 5/9, für f9(n) hingegen zwischen 1/81 und 1/9.

Auch der Zufall ändert nichts daran

Um diese Schwankungen in den Griff zu bekommen, kann man den Mittelwert s1 über verschiedene Intervalllängen bilden. Das bedeutet: Man berechnet zunächst den Anteil aller Zahlen zwischen 1 und 1, die mit einer Eins beginnen, addiert den Anteil derjenigen zwischen 1 und 2 dazu, anschließend zwischen 1 und 3 und so weiter, bis man wieder beim ursprünglichen Intervall zwischen 1 und n angelangt ist – und teilt das Ergebnis dann durch n: s1(n) = [f1(1) + f1(2) + … + f1(n)]/n.

Diese Folge konvergiert zwar immer noch nicht, aber sie schwankt zwischen einem kleineren Intervall hin und her. Daher kann man dazu übergehen, nun auch s1(n) zu mitteln. Das Ergebnis variiert dann zwischen zwei Zahlen, die noch näher beieinanderliegen. Also wiederholt man den Vorgang nochmals und mittelt die Mittelung der Mittelung – und das immer und immer wieder. Geht man auf diese Weise vor und bestimmt jeweils den Anteil der Zahlen, die mit einer Eins beginnen, erhält man am Ende den Logarithmus von zwei, wie die Statistikerin Betty Flehinger 1966 bewiesen hat. Das entspricht genau dem benfordschen Gesetz für N = 1.

Mit dieser Methode erklärt man allerdings nur, warum das benfordsche Gesetz in Zahlenintervallen von eins bis n erfüllt ist. Das genügt noch nicht, um zu erklären, warum so viele reale Datensätze dieser Regel folgen. Schließlich unterliegen deren Zahlenwerte unter Umständen anderen Gesetzmäßigkeiten. Eine einleuchtende Erklärung dafür fand der US-amerikanische Mathematiker Theodore Hill im Jahr 1996.

Stellen Sie sich vor, Sie haben etliche Datensätze vor sich liegen, die jeweils verschiedenen Wahrscheinlichkeitsverteilungen entsprechen, etwa ein Adressbuch mit Hausnummern, eine Enzyklopädie mit der Einwohnerzahl von Städten, einen Finanzbericht mit den Ausgaben einer Firma und so weiter. Zuerst picken Sie sich einen Datensatz heraus und entnehmen diesem einen zufälligen Wert. Dann wählen Sie ein anderes Dokument und notieren eine Zahl daraus. Das wiederholen Sie ein ums andere Mal. Wie Hill herausfand, gehorchen die Ergebnisse in diesem Fall dem benfordschen Gesetz. Denn er konnte beweisen, dass Zahlenwerte, die zufälligerweise verschiedenen Wahrscheinlichkeitsverteilungen entstammen, nach der benfordschen Regel verteilt sind.

Das erklärt auch, warum Zahlen, die in Magazinen wie »Spektrum der Wissenschaft« oder »Gehirn&Geist« stehen, zumindest annähernd der benfordschen Statistik folgen: Die darin enthaltenen Artikel decken unterschiedliche Themengebiete ab, in denen Zahlenwerte aus verschiedensten Wahrscheinlichkeitsverteilungen auftauchen.

Diese Tatsache macht sich unter anderem das Finanzamt zu Nutze, um frisierte Zahlen in Finanzberichten aufzudecken. Weicht die Ziffernverteilung zu stark vom benfordschen Gesetz ab, stammen die Zahlen womöglich nicht aus der Wirklichkeit, sondern aus der Feder von Tricksern. Einige Gutachter stützen sich auf diese Regel, um Fehler in Datenerhebungen festzustellen oder gewollte Manipulationen offenzulegen.
Und mit diesem Wissen überlegt man in Zukunft wohl zweimal, ob man eine Wette annimmt,
die zu schön klingt, um wahr zu sein.

Feb 2022 | Allgemein, Essay, In vino veritas, Junge Rundschau, Senioren | Kommentieren