2018年12月21日上午9:30,由上海社科院研究生院主办的第44期尚社讲坛在分部2号楼415报告厅举办。美国威斯康星大学麦迪逊分校统计系主任王亚珍教授为在场师生做了主题为“Data Science Overview: Computational and Statistical Analysis of Stochastic Gradient Descent algorithms”的讲座。王亚珍教授在金融统计学领域的小波分析、高频金融数据分析等领域取得了非常出色的研究成果,讲座吸引了近一百名师生前来,研究生院院长朱平芳教授主持了本次讲座。
王教授首先概述数据科学,涵括什么是大数据,以及大数据如何着陆,具体怎么应用到实际问题。之所以称作大数据,主要在于三点,分别是数据量的大、数据计算速度的大,还有数据多样性的大。同时,判别大数据的标准也是随着技术、理论的进步而逐渐变化。那么应该如何利用大数据,科学的运用到实际问题的解决之中呢?这需要综合运用数学与统计学、计算机科学和自身的领域知识。数理统计可以描述数据,并归纳推测总体;计算机可以更快的处理数据;自身的领域知识决定了在如此多的数据中应该如何取舍,哪些可以用来解决对应的问题。
接着,王教授举了两个例子来阐释数据科学的具体应用,分别是机器学习和科学计算研究。比如图像分类,就需要先训练,给予机器大量的图片,通过抽取图像特征,建立模型来辨别。训练好如何分类之后,再给予新的图片来测试,根据结果来检验模型。对于人类来说,看过一张猫的图片,就可以从成千上万张图片中辨认出哪张是猫,而对于机器却很难,需要经过多层的算法,深度学习才可以完成。目前图像识别的错误率已经非常低了,不到3%。再如垃圾邮件的识别,怎样界定边界是非常重要的。王亚珍教授讲解了线性与非线性的两种情况,演示了具体应该选择怎样的模型。
最后,王教授介绍了他目前的研究内容——随机梯度下降算法的计算和分析。这是一种新的渐近分析,主要通过连续时间顺序或随机微分方程的方法。该分析可以为联合计算和统计渐近分析提供一个新的统一框架,用于对迭代次数和优化解决方案的大样本行为中的动态行为的计算。因此该方法可以广泛用于解决统计学和机器学习中的优化问题。王亚珍教授总结说:对于大数据来说,推论和计算都是重要的。计算可以用于统计推断,统计数据可以用来分析计算算法。统计学可以应用于量子技术,如量子计算和断层摄影术,其中的量子计算对于统计计算和机器学习方面都有重要的应用。
王教授以深入浅出的方式,为大家讲解了数据科学和随机梯度算法。他的思路清晰,逻辑严密,即使是非专业的学生也可以大致了解研究的思路方法,折射出其深厚的学术功底和严谨的学术作风。