文以载道:文本数据的获取、清洗及应用

发布时间:2024-12-19访问量:10

20241219日下午,由上海社会科学院研究生院培养办主办开设的经济学前沿系列专题讲学班在我院中山西路院区社科国际创新基地五楼第会议室成功举行。本讲座的主讲人是上海财经大学经济学院的讲师范馨月博士。范馨月博士今年毕业于厦门大学王亚南经济研究院,是上海财大新进的青年教师,在文本数据分析方面取得了显著的研究成果。讲座由上海社会科学院研究生院副院长邸俊鹏主持。

 

范馨月博士围绕文本数据的获取、清洗和在经济社会科学研究中的应用展开。介绍了文本数据作为一种新兴数据的重要性。近年来,文本数据受到了学术界的广泛重视,被视为对传统数据的有效补充。新闻媒体、股吧论坛、社交网络等多种多样的文本数据,因其更新频率高、信息覆盖面广,为研究提供了新的视角和方法。然而,这类数据也存在处理难度高的问题,如何在海量数据中提取有效信息,成为研究者们亟待解决的问题。详细讲解了文本数据的获取和清洗方法。研究领域常用的文本数据包括新闻报道、社交媒体评论、政策文件等,这些数据可以通过网络爬虫、API接口等方式获取。对于非结构化形式的文本数据,需要进行清洗和预处理,如去除停用词、标点符号、特殊字符等,以提高文本分析的准确性。范馨月博士还分享了她在实践中常用的文本清洗工具和技巧,介绍了当前主流的方法,包括情感分析、主题模型、关键词提取等,并对这些方法的优劣性进行了对比分析。

 

范馨月博士详细探讨了文本数据与经济数据的差异,以及如何在研究中融合这两种不同类型的数据信息。她指出,文本数据具有实时性强、信息丰富等特点,而经济数据则具有精确度高、易于量化等优势。将两者结合,可以更加全面、深入地了解宏观经济状况,提高研究的准确性和可靠性。范馨月博士还列举了现有研究中成功使用文本数据的案例,展示了文本数据在研究中的广阔应用前景。

在交流环节,范馨月博士针对文本分析在社会学、国际问题研究领域同学们遇到的困难一一进行了解答。

 

【演讲嘉宾资料】范馨月,上海财经大学经济学院讲师,厦门大学王亚南经济研究院博士。研究领域为文本分析、大数据建模与宏观计量,在《经济研究》《世界经济》《管理科学学报》International Journal of ForecastingJournal of Forecasting等重要刊物上发表多篇论文,主持上海市晨光计划项目、教育部数理经济学实验室开放项目,并作为核心成员参与教育部人文社会科学重点研究基地重大项目、国家社会科学基金重大项目、国家自然科学基金面上项目等多项国家级重要课题。

 

 

返回原图
/