金融界2025年2月12日消息,国家知识产权局信息显示,山西太行实验室有限公司申请一项名为“基于自然语言特征和自信息的文本压缩方法”的专利,公开号CN 119396784 A,申请日期为2024年10月。
专利摘要显示,本发明属于自然语言信息处理技术领域,公开了基于自然语言特征和自信息的文本压缩方法,具体技术方案为:步骤一、对开源语料库中的Google问答数据集进行数据预处理,删除无用信息,模拟多文档检索,获得面向长上下文压缩的数据集,进而获得多文档长文本;步骤二、通过对该多文档长文本进行自信息的评估得到短语粒度、文本自信息分布,同时进行词性分析、命名实体分析依存关系分析的自然语言特征的提取优化基于自然语言特征的分布,获得分布优化后的压缩文本;步骤三、压缩文本prompt设置,构建目标问答模型,获得问答性能指标并应用于下游任务中,本发明在长文本压缩准确性上非常出色,提升了文本压缩的性能。
天眼查资料显示,山西太行实验室有限公司,成立于2020年,位于太原市,是一家以从事互联网和相关服务为主的企业。企业注册资本1000万人民币,实缴资本1000万人民币。通过天眼查大数据分析,山西太行实验室有限公司共对外投资了1家企业,参与招投标项目14次,专利信息8条,此外企业还拥有行政许可2个。
本文源自金融界 |