签到
EN

统计学的核心到底是什么?

65浏览
2022/03/31 07:40发布
苗浩然
中南财经政法大学
学生
这篇文章来看下统计、有效性、数据——统计学的核心到底是什么?
首先,我在这里引用Breiman教授 的几句话:
   
图片  
统计就是"一门收集、分类、处理并且分析事实和数据的科学。    
Fisher相信统计的存在是为了预测、解释和处理数据的。
就统计应用的角度而言,我知道工业机构和政府在发生些什么,但是目前进行的学术研究却似乎离我们无比遥远,好像只是抽象数学的某一分支一样。
这些话从Breiman教授的口中说出来,对我来说,依旧是非常震撼的。Breiman是美国国家科学院院士 (应用数学学部),不仅在概率论、统计、机器学习,做出了许多有巨大影响力的工作,特别他的CART和bagging这些东西已经是科技公司每天都在用的工具;而且在咨询各个行业躬身力行,笃行不怠。可以说他是既懂数学,又懂统计,也懂应用的全才。
我的看法跟Breiman教授的观点几乎一样,我在最近一个讲座里面说:“统计学一开始就从实践中来,通过数据来认识这个世界,最终去解决大的实践问题。” 一言而概之:  
统计学的核心是应用和数据,就是通过分析数据来深刻地探索这个世界。
以下是我对此的一些浅显的认知:
1

统计学跟数学不一样 

 

虽然统计学要用到数学的许多工具来把整个体系完备化,但是统计学中根本性的0-1大突破一定是从为了解决重大应用问题而产生的。比如,随机梯度算法就是Robbins和Monro (1951,统计年刊)为了做一个实验设计的问题提出来并解决的, 而它现在是深度学习和强化学习最重要的优化工具。那些高深的数学工具大概率不能给统计学的带来革命性的变革。
图片
图1. 什么是统计?(出处未知)
2

统计不是从工具到应用 

我们许多统计学家主要是在做各种统计工具,讨论许多理论性质特别强调数学的美;有的会去找各种数据来试,看看能不能用的起来,只关心能不能发顶刊,根本不关心实际应用中的价值。这也是为什么Breiman说 “统计中吸引人的东西与目前的学术研究已经相去甚远,分道扬镳了”。其实最近20年,统计学在某种程度上是偏离了这个应用的本质。另外一方面,越来越多的智能型数据产品的出现,比如说最近Deepmind在Nature连续发了两篇文章,这些产品对蛋白质结构的预测,用到了好几个最新的分析方法,比如embedding,预训练,知识蒸馏,变换器,和图模型的表示。这些工具就是Breiman教授说 “我与机器学习和神经网络区域的人走得很近,因为他们正在为一些复杂的、困难的预测问题做一些非常重要的应用工作。他们以数据为方向,所做的也与Webster对统计的定义相一致,然而,他们几乎全都不是受过训练的统计学家!”。这些工具已经不能算是传统的统计方法,你可以说在最底层,它们跟统计非常有关系,但是其中有核心的创新是非统计的,是革命性的。这些突破带来不仅仅是学界的认可,它同时会影响政府机构(含各个funding机构)和金融投资机构。比如,美国NSF最近就成立了数十个AI相关的研究中心,但这些和统计社区关系不大,最终可能会进入一个恶性循环的生态环境。
3

数据问题的重要性

因为物联网的发展直接引导了新型产业的发展,像社交平台、搜索引擎和交易平台等等。由此在时空维度上, 对数据收集、存储和分析都发生了根本的革命。相关公司业务的发展极大地推动计算机软硬件的进步,数据的规模无论从复杂度和多样性都对未来时空数据分析方式提出了许多新的要求。有了数据,原来许多不可能的事情变得可能啦。最近人工智能的落地已经上升到国家层面,是新一代工业革命的核心技术,随着这些落地的进行,我们会看到更多、更大、更复杂的数据。
4

统计一定是从应用中来,到应用中去

 

我来说几个例子。

第一个例子是关于ImageNet数据集。最近10年AI的发展,其根源就是数据上的突破,无论从数据的质量、问题的复杂度、还是标注方法的创新, ImageNet都是本世纪数据科学,特别是计算机视觉最重要的一个突破。它给了我们一个公正地评估和训练各种分类和预测方法的平台。一个好的数据是有影响力的统计研究的重要基础。
第二个例子是关于深度学习。现在大家公认深度学习是数据分析方法最近十几年的最大成果,影响深远。它无论对计算机视觉、自然语言处理、非参数模型、反问题、图像处理、偏微分方程数值解等领域都是根本性的革命,可以说现在许多领域里面都替代了传统方法,包含许多应用数学方法, 虽然深度学习的理论研究严重落后于它的应用和算法创新。
第三个例子是关于AlphaGo。AlphaGo的成功反映了一个数据产品要成功,从顶层设计,到数据建设,到硬件,到高超的算法水平,都是缺一不可的。因为深度学习的发展,特别跟软硬件和其它方法的融合,极大地推动了智能数据产品的落地,比如说,AlphaZero和AlphaGo的开发,把现代数据科学可解决问题的深度和广度都推到了历史新高度,并在各个领域里面发挥了越来越重大的影响,特别在学术界和政府,现在已经上升到国家层面的核心生产力,成为新一代工业革命的核心技术。国家层面对AI的投入可以说是一个巨大的蛋糕。这也反映了我们未来要重视智能数据产品的开发和落地,不能只做整个问题中很小的一步,特别要培养统计专业学生的工程能力是非常关键的。
第四个例子是强化学习。AlphaGo和物联网的成功也带动了强化学习的复兴,强化学习已经从一个小众的分支,变成机器学习的头号分支。今年ICRL和neurIPS的顶会里面最多的文章都跟强化学习相关,现在强化学习已经从游戏,到机器人,到精准医疗,到各个市场的落地。我们在滴滴的团队一直用强化学习来优化平台的策略,都取得了很多成果。由于时空平台会越来越大而多,强化学习一定会成为主流数据分析工具。
第五个例子是因果推断。比如今年诺贝尔经济学奖就给了两个做因果推断的人,他们推广了Donald Rubin的因果模型,我认为Don能够做出这样漂亮的统计框架大部分归于他多年咨询工作中积攒的数据和应用相关分析的工作经验、收集数据能力的极大提升和最近因果模型的相关应用和研究的深入。并且随着收集数据能力特别是时空数据的极大提升,因果模型的相关应用和研究会越来越多和越来越深入,由此相关落地会产生出更大的影响力。
5

未来一段时间应用的核心

 

最近机器学习大佬Michael Jordan强调了机器学习与市场的融合。这一代人工智能的发展主要是落地在衣,食,住,行,教育,医疗,人力,和养老等相关的市场,系统地将消费者和商品紧密连接,把人、数据和现实中的问题和需求进行整合,成为一个可以创建经济新业态的平台。统计学必须从收集和提炼信息的阶段来思考如何搭建有效的数据平台,在推动业务发展的过程中逐渐从分析方法上抽象出一套完整的统计学基础理论,来推动人工智能在产业的落地,并产生巨大的社会价值。

因此,我呼吁统计同仁们重视数据和应用,多思考应用的大问题,通过收集和清洗数据,来解决实际问题,进而发展出几个牛掰的统计工具,再证明几个深刻的数学公式,这样统计学就有着辉煌的未来。
最后,我用Breiman教授的一句话结尾:
图片

统计精髓之处是在收集和利用数据,来解决现实世界中有趣而又重要的问题

 

 

 

*文章来源:青牛帮

*侵权必删

苗浩然
中南财经政法大学
学生
文章137
·
总浏览量64244
最新文章
更多
共读经典,启智未来——尚悦小夫子与《论语》之旅
杨展
3354
浏览
【千帆竞发占潮头 百舸争流破浪行】中国企业正扬帆启航向深蓝进发 | 2024全球出海数智创新高峰论坛邀您9月论道
杨展
3360
浏览
Campbell Harvey教授:Web3觉醒: 解密去中心化金融(DeFi)与Web3的未来
学术会议动态
29
浏览
Daniel Rabetti | 区块链取证:揭示加密货币的黑暗面
学术会议动态
17
浏览
修大成 | 金融机器学习: 崛起、突破与局限性
学术会议动态
37
浏览
李鲲鹏 | 单一因子降维方法:理论与金融应用
学术会议动态
16
浏览
热门用户
学术前沿速递
学术前沿速递
文章
300
学说观点
学说观点
文章
300
AIGC交流社区
学说官方
文章
239
未央网
未央网
文章
233
毕宣
中央财经大学
文章
185
王凯
T. Rowe Price
文章
181
热门文章
更多
经济学入门必读书籍有哪些值得推荐?
楚健
·
1241
浏览
最新综述!AIGC到底是什么?都有哪些应用?一文尽览!
AIGC交流社区
·
996
浏览
绿色信贷能否提高商业银行的核心竞争力?基于中国的准自然实验
创新研究
·
991
浏览
数电票的26个问题,税局统一回复!
张俊熙
·
976
浏览
“特斯拉”打败了“星巴克”
张子瑞
·
917
浏览
研究方法 | 文献资料分析方法大全!收藏
周舟
·
891
浏览
银行纷纷入局数字藏品赛道,什么信号?
李杨杨
·
856
浏览
《中央企业基金业务管理暂行办法》已内部印发
楚健
·
848
浏览
研究方法:文献资料分析方法
周舟
·
755
浏览
如果经济学家连股都不炒,那他们都在干什么呢?
李博
·
709
浏览