写给统计学的问题

1月 4, 2021·
Yiran Wang
Yiran Wang
· 4 分钟阅读时长
Image credit: Mei Dong
blog Basic Statistics

说明:本文为英文原文的 AI 辅助中文翻译,可能没有完全保留原文语气;如需核对细节,请切换到 English 版本。 作为统计学学生,这七年来我越来越觉得这门学科有趣。但与此同时,我也有越来越多问题,关于统计学的基础、统计学的未来等等。我想推荐《The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century》这本书,用来了解统计学历史。那是一段非常有趣的历史,基本围绕几位著名统计学家展开。如果你在 Mathematics Genealogy Project 上查自己的学术谱系,会发现一些非常有名的人。对我来说,往前三代是 Blackwell,六代是 Fisher,十代是 Poisson。这个领域很小,所以很容易找到彼此之间的联系。

我向一些教授问过这些问题,也尝试用自己有限的经验回答。有些问题容易回答,而且得到的答案相似;有些问题基于当前状态很难回答。我也想把这些问题问给读者,你也可以思考类似的问题。

1. “你是 Bayesian 还是 frequentist” 是一个合理的问题吗?成为 Bayesian statistician 意味着什么?它们未来会统一吗?

现在人们会同时使用两个学派的方法来解决问题。似乎只要能完成工作,大家对频率学派和贝叶斯学派之间的哲学争论就没那么感兴趣了。所以有人称自己为 pragmatic Bayesian,而不仅仅是 Bayesian。就像历史上许多定义之间的冲突一样,如今我们只是学习并使用两者,却未必知道它们之间曾有过很大的争论。这重要吗?我不知道,但我觉得至少了解它们意味着什么、代表什么是好的。从 UC Irvine 毕业时,我觉得自己是 Bayesian,因为我选择把贝叶斯方法作为研究兴趣之一。所以当 Jock 问“我们班里有 Bayesian 吗?”时,我毫不犹豫地回答了。但上了几门课之后,我发现自己还太不成熟,不足以称自己为 Bayesian。还有太多思想我没听说过,也没有完全理解。因此现在回答这种问题时我会很谨慎。至于最后一个问题,我想象的是类似 Theory of Everything 的东西,而不是简单把 frequentist 和 Bayesian 方法拼在一起。我们知道,当使用无信息先验且样本量足够大时,后验分布会给出类似 MLE 的估计。因此,也许存在一种可能,把这些相似的方法统一为一种更一般的方法。

2. 你如何定义统计学,也许还有数据科学?你认为未来的统计学会是什么样?

随着统计学和其他学科之间的边界越来越模糊,比如数据科学和某种程度上的计算机科学,精确定义这些学科越来越困难。关于什么是数据科学,有很多论文、文章和报告。不同人有不同定义。有些人说数据科学是交叉学科,也有人说统计学包含在数据科学里,因为统计学处理数据。在中国,一些统计系被替换或并入数据科学学院、大数据学院。我认为原因很明显:数据科学和大数据是热门趋势,这个名字能带来更多经费和项目。像 Paul 一样,如果未来统计学消失或变成别的东西,我不会惊讶。在我看来,统计学本身的理论基础其实很弱,因为它是一门经验学科。这七年来我学到的一点是:没有什么是不可能的。有时我会想,这是否意味着我们其实什么也没学到,这有点悲伤。

3. 虽然我们接受训练,拥有专业知识和技能,但资本认为我们有多少价值?我们在行业中的优势是什么?

很多公司都有“data scientist”职位,但很多公司并不知道这些 data scientist 应该做什么。疫情初期,我听说一些公司解散了数据科学部门。也许这是它们认真思考这个问题的好时机。另一方面,懂得使用 R/Python 包、具备一定统计知识的 CS 学生也可以成为 data scientist,而且他们的编程能力可能比统计学生更强。Jock 说过:“统计学一定是最广泛教授、也最糟糕教授的学科之一。你告诉别人你是统计学家,几乎一定会听到对方说统计学是他们上过最糟糕、最没用的课。”因此,统计学给人的印象常常是无用。此外,在这个时代,人们关注速度,质量排在第二。如果一个包能处理所有事情,为什么还需要统计学家?

4. 什么时候你觉得自己有足够知识独立做项目?什么时候你发现自己有足够知识去思考统计学的基础问题?

这两个问题不像前面那些那么重要或深刻。我只是不知道现在是不是思考这些问题的好时机,也不知道博士之后会怎样。博士毕业生应该达到什么水平?我离那个水平还有多远?

我一直同意,思考某个事物的一般性和基础性问题是有益的。思考万事万物最深层的基础,有助于理解这个世界并形成自己的世界观。希望几年之后,我能回答其中一些问题,并提出新的问题。

Yiran Wang
Authors
Yiran Wang (he/him)
博士后研究员
王祎然现为多伦多大学卫生政策、管理与评估研究所博士后研究员。他的研究兴趣主要是发展能够连接统计理论与实际应用的方法,包括贝叶斯推断、总体规模估计、中介分析、数据整合和潜变量模型等。