2026年1月9日上午,信息所双周学术论坛暨上海社科院AI工作坊活动在院总部113会议室举行。本次活动由信息所AI4SS实验室、所青年学术交流中心和院信息办联合主办,主题为“自然语言处理在金融研究中的应用”。上海财经大学统计与数据科学学院卞世博教授受邀主讲。信息所所长刘炜、副所长丁波涛、汪怿,院信息化办公室主任赵虹、副主任奚艳等相关同志参加,所青年学术交流中心主任顾洁主持。来自院内多个研究所的科研人员到场聆听,活动同步开通线上会议,方便科研人员在线参会交流。
讲座中,卞世博教授围绕金融研究中非结构化数据的分析方法与应用实践,系统介绍了金融文本及多模态数据分析的研究框架与前沿进展。他指出,金融的本质是对信息的处理,其核心在于预测,随着文本、图像、音频等非结构化数据不断涌现,将更多信息纳入决策分析框架,已成为提升金融研究解释力与预测能力的重要方向。
在方法层面,卞世博教授梳理了金融文本数据的主要来源,包括上市公司信息披露文件、新闻报道、社交媒体、分析师研报及政策文件等,并介绍了文本数据采集、预处理与分析的基本技术路径。从关键词检索、文本向量化到主题模型与分类方法,他结合实例阐释了自然语言处理(NLP)技术在金融研究中的具体应用场景。
围绕应用实践,讲座重点介绍了文本可读性分析、情感分析及互动式文本研究等方向。例如,通过分析年报可读性可识别企业信息披露动机,为监管与市场研究提供参考;情感分析从早期词典方法发展到与大语言模型相结合,在可靠性与解释性方面不断提升;互动式披露研究则通过度量“答非所问”等现象,评估企业信息披露质量及其市场影响。
此外,卞世博教授还介绍了招聘信息、新闻媒体和政策文本等在金融研究中的应用价值,并展示了多模态信息分析的研究前沿。他指出,图像、音频等非文本信息在捕捉市场情绪和风险信号方面具有独特优势,例如通过分析管理层电话会议中的语音情绪,往往能够提供比文本情感更具解释力的信号。
在互动交流环节,与会学者围绕金融文本分析的合法合规性、方法适用性及多模态数据在社会科学研究中的拓展应用等问题展开了深入讨论,现场与线上互动交流气氛热烈。


