报告题目:负责与可信的大语言模型(Towards Responsible and Trustworthy Large Language Models)
报告时间:2025年3月12日14:30--16:00
报告地点:教12-501
主办单位:科学技术处
承办单位:计算机学院
参加人员:全体感兴趣师生、计算机学院全体老师、硕士研究生
报告简介:大语言模型(LLM)的快速发展带来了前所未有的机遇与挑战。确保LLM的负责任和可信任使用已成为当前的重要议题,这体现在两个关键维度:内容安全和内容可溯源。在内容安全方面,核心任务是实现LLM与人类价值观的安全对齐,主要面临两大技术挑战:一是对齐的粒度问题;二是对齐数据来源问题。在内容可溯源方面,需要建立有效的文本水印机制以追踪AI生成内容。针对这些挑战,本报告提出了系统性解决方案:在安全对齐方面,通过提出TIS-DPO方法,首次将token级别的重要性采样引入DPO训练,克服了传统DPO方法对所有token赋予相同权重的局限。同时提出DLMA方法,通过对比提示对生成和自我奖励评分机制,实现了大模型的高效自监督对齐。在内容溯源方面,突破传统水印方法在鲁棒性与安全性之间难以平衡的困境,提出了基于语义不变性的鲁棒水印(SIR)方法,利用语义嵌入指导水印生成,实现了对文本改写的高鲁棒性。进一步提出不可伪造的公开可验证水印(UPV)方法,通过非对称计算实现水印生成与检测的解耦,既保证了公开验证能力又防止水印被盗取。基于这些创新方法,开发了开源水印工具包MarkLLM。研究成果为大语言模型的负责任开发与可信任应用提供了理论与技术支撑,对于人工智能的健康发展具有重要意义。
报告人简介:闻立杰(1977年-),男,河北唐山人,博士,清华大学软件学院院长聘副教授/博导,清华大学书院党委笃实书院学生工作组组长,分别于2000年、2003年、2007年获清华大学计算机科学与技术专业学士、硕士、博士学位。研究方向为自然语言处理、大数据处理与分析、业务流程智能挖掘,其中,自然语言处理方向成果包括安全可信大模型、大模型训练推理加速、多模态大模型、模型多代理评估框架、命名实体识别、关系抽取、自然语言推理、模型组合泛化性、事件序列预测、文本分类增强等。截至目前,在ACL、ICLR、ACM SIGIR、ACM SIGKDD、ACM MM、IEEE/ACM ASE、AAAI、EMNLP、IEEE TKDE、IEEE TPDS、IEEE TSC、计算机学报、软件学报、计算机研究与发展等会议和期刊上发表论文250余篇,谷歌学术引用6800余次。主持国家重点研发计划课题3项、主持国家自然科学基金2项、参与国家NSFC/973/863计划子课题十余项、国家核高基重大专项课题1项。获国家发明专利、软件著作权二十余项,2014年获国家科技进步奖二等奖1项,获BPM 2014最佳荣誉审稿人、BPM 2015最佳学生论文奖(亚洲首次,中国唯一)、CBPM 2017/2018/2020/2021最佳(学生)论文奖,获2023年度清华大学优秀班主任一等奖(仅6人)。过程挖掘论文已被收入国际教材和学术专著,译著3部。现任国际会议ACL、SIGIR、CVPR、AAAI、EMNLP、CAiSE、ICSOC、BPM、ICPM程序委员会委员,中国业务过程管理大会CBPM指导委员会执行主席,IEEE过程挖掘工作组XES标准化小组委员(中国唯一),曾任BPM 2019程序委员会资深委员(中国唯一)。主导研发交互式大数据处理与分析平台FloK和流程挖掘工具THUMiner,研究成果已在中国移动、华为、中国气象局、天远科技、中车四方所、瑞华高科等获得初步应用。
