2024年9月27日晚,由6163银河线路检测中心、北京现代物理研究中心主办的“6163银河线路检测中心物理学科卓越人才培养计划讲堂:名师面对面”(第二十八期)在6163银河线路检测中心理科教学楼203教室举行。6163银河线路检测中心博雅讲席教授、统计科学中心科学委员会主席陈松蹊院士应邀讲授“统计与数据科学及交叉研究经历”。本期讲堂由6163银河线路检测中心院长、北京现代物理研究中心副主任高原宁院士主持。
人人在生活、学习、工作中都会用到统计学的知识与思想,然而,并非人人都能说出统计学是什么。陈松蹊开宗明义地阐释统计学的概念:“统计学,就是以数据为研究对象,指导人们收集数据、使用数据、分析数据和基于数据进行科学推断的学科。”例如,统计物理学用概率论(由原因推知结果)和统计学(由结果推知原因)的方法解决由大量粒子组成的系统中的物理问题,旨在研究宏观现象的微观机制、诠释宏观系统的物理特性,并试图为具有复杂相互作用的多体系统建立一般性理论,以理解和刻画超越微观相互作用所能预言的整体行为或涌现现象。
陈松蹊指出,统计学蕴含着理学、工学、农学、医学和人文社会科学实证研究的方法论
陈松蹊首先用白描式的语言为同学们概述了在统计学发展历程中具有里程碑意义的科学家及其研究成果。例如:高尔顿(F. Galton)爵士于19世纪末开展甜豆实验、优生学测量,提出“均值回归”和“相关性”的概念,确立了定量研究的新范式;此后,每当统计学“被巧妙地处理并被谨慎地解读”时,日益显示出它惊人的“处理复杂现象的能力”。皮尔逊(K. Pearson)系统性地整理、总结并发展了高尔顿的思想,将统计学方法推广至其他领域;完善了“相关系数”并提出联列表数据的卡方(Χ2)检验法,推动了统计学假设检验的发展。戈赛特(W. Gosset)提出t检验法(亦称为学生检验法),开启了统计学从大样本转向小样本、从描述性方法转向推断性方法的跨越式发展。费希尔(R. A. Fisher)爵士于20世纪早期提出实验设计思想、估计参数的极大似然法、方差分析理论,奠定了方差分析的一般框架,在统计学从传统到现代的转型中发挥了不可替代的作用。
随后,陈松蹊以自己三十多年来从北京到澳大利亚、新加坡、美国,再回到北京的学术经历为“样本”,向同学们阐释了统计学对解决跨领域、跨学科的科学问题所起到的重要作用。
上世纪九十年代初,他在澳大利亚联邦科学与工业研究组织(CSIRO)海洋实验室承担监测澳洲区域蓝鳍金枪鱼种群密度的研究课题。他与同事提出一种基于航空线段的有偏抽样方法,对海洋中的蓝鳍金枪鱼种群作出统计估计,为有关机构治理这一濒临灭绝却具有很大经济价值的鱼类种群提供了新的依据和监测模式。本世纪初,他在美国爱荷华州立大学任教时,曾参与美国人口普查研究。由于美国人口基数大、族裔呈现多元化、结构呈现多样性,他在常规的“捕获-再捕获”方法基础上提出基于局部特性分层的方法,即按照不同人群的特征赋予不同形式的事后统计调整,有效提高了人口统计数量和统计范围的准确性。
在陈松蹊看来,人生的不确定性意味着机遇,而统计学的不确定性正是其魅力所在
然而,比起在南澳、北美的研究成果,陈松蹊更希望与同学们分享的是最近十年来在环境统计学、流行病学与卫生统计学领域的研究工作。
2013年9月,陈松蹊邀请一位美国国家科学院院士来访,竟被对方以“空气质量令我担忧”为由婉拒——意外的挫折激起他“为了蓝天,让我们用数据解读污染”的责任感和紧迫感。他带领团队提出一种通过构造基准气象分布和调整均值,消除气象因素干扰、度量大气污染物排放的研究思路,编制了十一份《空气质量评估报告》,为我国有关部门制定科学的政策,推进改善生态环境、防治大气污染、保障公众健康提供了科学的建议和方法。如今,蓝天已成为北京的常态,他们仍坚持用数据科学与统计学方法解读蓝天“密码”,为国家战略需求和人民生命健康服务。
2020年初,抗击新型冠状病毒疫情的主战场武汉关闭离汉通道。陈松蹊立即召集团队,设计开发出一个添加确诊前感染因素、人口迁移模块的变系数流行病学模型(vSEIdRm模型),准确预测疫情传播形势、定量刻画防控措施效果,以此编写并更新疫情分析日报,既辅助了中国应对突发卫生事件的决策,又增强了中国争取国际话语权的说服力。2023年4月,他们提出另一个变系数随机流行病学模型(vSVIADR模型),开发出一种多步、分散式的统计估计方法,以根据公开可用的流行病学和疫苗接种数据及时评估疫苗在真实世界的保护率;同时,对上述模型进行扩展,以考虑疫苗加强针的接种和重复感染,提供了使用公开流行病学数据估计加强针对感染的保护率的方法,并将其用于评估七个国家在德尔塔和奥密克戎变异株流行期部分接种、完全接种和加强针接种对感染的保护率。
同学们追随着一位统计学家“上天”“下海”的奇幻旅程
最后,陈松蹊简要介绍了今年初启动的“西太平洋多圈层相互作用数据集成研究”项目的最新进展,还从统计学视角评述了气候变化研究中广泛使用的最优指纹法。他说:“哪里有数据,哪里就有统计学。加快数字中国建设,以数字化驱动生产生活和治理方式变革,无疑是统计与数据科学发展的重要战略机遇。”
陈松蹊(一排右三)和高原宁(一排左二)深知,对于一个学科的发展来说,人才是最积极的变量——“统计学的未来,是属于年轻人的!”
核物理与核技术国家重点实验室杨振伟教授、清华大学统计与数据科学系部分师生现场出席。