本福特定律(Benford's Law),是美国天文学家、数学家Newcomb于1881年发现并发表在《美国数学期刊》上的,本福特进行了进一步的实证研究和验证。本福特定律认为在一组随机的数字中,各个数字的首位存在一定规律,越小的数字出现的概率越高。本福特定律总结了自然生成的数据集首位数(第一位数)及其他各位数的分布规律,首位数为1~9的概率依次为30.1%、17.6%、12.5%、9.7%、7.9%、6.7%、5.8%、5.1%和4.6%。
本福特收集了世界河流流域面积、人口、物理常数、数学数列、原子量、成本数据、报刊杂志中等20组数据,共计2万多个样本,计算了各组数据中1~9在第一位出现的频率。结果表明,有相当一部分数据集符合或基本符合对数分布律,也有一部分偏离对数分布律,但将所有数据集合并后,其结果非常接近对数分布律。本福特的研究成果发表于1938年3月《美国哲学学会论文集》,题为“反常的数字规律"。之所以“反常”,是因为按照直觉,数字出现在第一位的概率应该是相同的,但第一位数的对数分布律却背离了人们的直觉。本福特定律实质上是指数增长在世间万物的体现。在现实生活中,本福特定律可用于检查各种数据是否有造假。
数学
本福特定律说明在b进位制中,以数n起头的数出现的概率为。本福特定律不但适用于个位数字,连多位的数也可用。
在十进制首位数字的出现概率(%,小数点后一个位):
不完整的解释
一组平均增长的数据开始时,增长得较慢,由最初的数字a增长到另一个数字 起首的数的时间,必然比起首的数增长到,需要更多时间,所以出现率就更高了。
从数数目来说,顺序从1开始数,1,2,3,...,9,从这点终结的话,所有数起首的机会似乎相同,但9之后的两位数10至19,以1起首的数又大大抛离了其他数了。而下一堆9起首的数出现之前,必然会经过一堆以2,3,4,...,8起首的数。若果这样数法有个终结点,以1起首的数的出现率一般都比9大。
这个定律的严格证明,可以参见Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996.。
应用
1972年,Hal Varian提出这个定律来用作检查支持某些公共计划的经济数据有否欺瞒之处。1992年,Mark J. Nigrini便在其博士论文"The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies."(Ph.D. thesis. Cincinnati, OH: University of Cincinnati, 1992.)提出以它检查是否有伪帐。
推而广之,它能用于在会计、金融甚至选举中出现的数据。该定律被华盛顿邮报上的一篇文章引用,该文章以此为基础声称2009年伊朗总统大选中有造假。
若所用的数据有指定数值范围;或不是以概率分布出现的数据,如正态分布的数据;这个定律则不准确。
历史
1881年,天文学家西蒙·纽康发现对数表包含以1起首的数那首几页较其他页破烂。可是,亦可以以任何书起首数页也会较破烂这个观点解释。这个故事可能是虚构的。
1938年,物理学家法兰克·本福特重新发现这个现象,还通过了检查许多数据来证实这点。
2009年,西班牙数学家在素数中发现了一种新模式,并且惊讶于为何现在才为人发现。虽然素数一般被认为是随机分布的,但西班牙数学家发现素数数列中每个素数的首位数字有明显的分布规律,它可以被描述了素数的本福特定律。这项新发现除了提供对素数属性的新洞见之外,还能应用于欺骗检测和股票市场分析等领域。
参见
• 齐夫定律
参考资料
英美学者论文:本福特定律对数据进行分析验证后,没有发现中国数据造假.环球网.2024-02-02