2018年5月9日晚,研究生院主办的尚社讲坛32期——大数据利用:机遇和挑战,在社科院分部举行,本次讲座的主讲人是英国伦敦政治经济学院统计系教授、我院特聘教授姚琦伟,研究生院院长朱平芳老师主持本次讲座。
姚琦伟教授并没有在一开始的时候便介绍大数据,而是从行为上数据分析的好坏案例入手,说明现今社会中“数商”的重要性。对比数据分析和数据科学的概念,指出数据分析强调利用提取出的信息解决问题,而数据科学强调信息提取与发现。随后,说明行为数据分析的案例在我们周围随处可见,与生活、工作、科研密切相关,并介绍了一些有趣的案例。如2004年,法兰西斯飓风抵达佛罗里达沿岸地区前夕,为了有效储备存货,沃尔玛超市根据上次飓风侵袭时的购物数据来分析预测消费者的需求,结果发现草莓土司的销量增长了7倍,某一种DVD售空,最畅销的商品是啤酒,这与直观上认为水、手电筒等商品销量会增加不同,并且无法解释产生这一结果的原因。
在我们深感数据之重要时,姚琦伟教授揭开了大数据的面纱,并说明了大数据的特点,让我们对大数据这一概念有了更加清晰的认识。教授介绍大数据时,将其概括为5V,即,Volume,是指数据量大;Velocity,指数据生成和处理的速度快;Variety,指数据在格式、结构和质量上差异很大;Value,是指淹没在大量数据中有价值的信息;Vanity,是指数据分析结果往往会出现伪相关性。
大数据并不是新鲜事物,但为何到今日才变得如此火热?教授认为,现在可以大规模的自动获取数据、电脑内存和速度以指数形式增长、数据分析目标从数据到信息,信息到收益的转换,这些都是促使大数据发展的原因。教授指出大数据意味着有更多的数据,也意味着有更多的信息,同时也有更多的噪音干扰,所以应对大数据的挑战时,要联合计算机科学、统计学和应用数据的力量,姚琦伟教授指出数据分析的最终目标是预测未来。
在最后一部分,姚琦伟教授指出了大数据存在的道德风险和法律问题,我们要更加理智地看待大数据。大数据现在存在的问题有,个人隐私和数据搜集之间的矛盾、个性化服务和操纵之间的矛盾等。
在讲座接近尾声时,姚琦伟教授针对研究生学习中使用的数据分析软件的学习和使用给出了十分有用的建议,回答了同学们对于大数据前景和学习上的疑问。通过这次讲座,同学们对大数据有了更多的了解,也引发了更多的思考,受益匪浅。