2026年1月23日上午,信息所双周学术论坛暨上海社科院AI工作坊活动在院分部第五会议室举行。本次活动由信息所AI4SS实验室、所青年学术交流中心和院信息办联合主办,夏翠娟教授应邀作专题报告,主题为“GenAI与多模态文化记忆资源的知识表示:以古琴减字谱为例”。
夏翠娟教授系中国人民大学吴玉章特聘教授、信息资源管理学院数字人文系教授、数字人文研究院研究员,信息所副所长丁波涛主持本次活动。信息所所长刘炜,院信息化办公室副主任奚艳,所青年学术交流中心主任顾洁等相关同志参加活动。
在专题报告中,夏翠娟教授系统梳理了知识组织与知识表示的发展脉络,指出知识组织经历了以叙词表设计为核心的1.0阶段、以元数据标准规范应用和元数据方案为核心的2.0阶段、以本体设计为核心的3.0阶段,当前正迈向大模型垂直领域应用的4.0阶段。在知识表示层面,她将其演变概括为文本化、结构化、语义化与向量化四个阶段,重点比较了传统向量化与GenAI技术环境下的向量化方法的区别,强调向量化表示能够实现更深层次的语义识别。
围绕生成式人工智能对知识表示的影响,报告指出,生成式 AI 能够通过多模态文化记忆资源的向量化表示,实现相似性计算、跨模态检索和自然语言交互,对古琴减字谱等高度复杂、符号化程度高的多模态资源具有显著优势。以古琴减字谱为例,夏翠娟教授分析了识谱、释谱、打谱、检索新范式探索及跨模态生成等多个应用场景,并介绍了相关实验研究过程:早期基于提示词工程和基线检索增强生成的实验效果有限,随后通过低秩自适应微调并扩大训练数据规模,显著提升了识别准确率。
在应用实践层面,报告比较了知识图谱的语义化与向量化表示在相似性计算方面的差异:知识图谱在相似性计算中路径排序更具可解释性,而向量计算虽高效但解释性不足;在识谱应用中,通过将图文信息转化为向量实现自动识别;在解释任务中,结合知识图谱与大语言模型有效提升了准确性与专业性。夏翠娟教授进一步总结认为,新技术应用可沿两条路径推进:一是以新技术改善旧流程,二是以既有成果助力新技术发展。其研究选择后者,通过构建系统化的知识表示体系与训练数据集,验证向量化知识表示的优势与局限,并已语义化表示法弥补了向量化表示的不足,体现了“人智协同”的研究理念。
在互动交流环节,与会人员围绕研究源起、模型选择、谱字识别与解释生成路径及应用转化前景等问题展开讨论。夏翠娟教授结合自身实践,说明了选择古琴减字谱作为典型多模态文化资源的研究思路,并介绍了ImageBind等跨模态对齐模型的应用价值。围绕符号结构拆解与生成式方法的不同技术路径,她强调生成式模型在泛化与容错方面的优势,同时指出知识图谱可在一定程度上提升模型的解释性与输出可靠性。对于未来场景拓展与产品化应用,夏老师表示仍需进一步积累数据并加强跨团队协作。现场交流深入,气氛热烈,为生成式人工智能与数字人文研究的深度融合提供了重要启示。


(报告研究成果已在知网网络首发,并在github上发布了相关实验细节、模型和数据)
