QQ:站内信联系

您的位置:主页 > 百事娱乐资讯 > 公司新闻 >

公司新闻

联系我们

电话:400-123-4567

Email: admin@baidu.com

传真:+86-123-4567

手机:13888888888

基于智能写作的自动新闻生成系统pdf

发布时间:2024-02-09 15:27人气:173

  本发明属于人工智能技术领域,具体涉及基于智能写作的自动新闻生成系统。所述系统包括:关键词录入单元,用于提供给用户输入关键词,所述关键词至少包括:时间、地点和事件关键词,并针对输入的事件关键词进行关键词派生,得到派生事件关键词;新闻核实部分,用于基于时间、地点和派生关键词,进行新闻搜索,以获取目标新闻,对目标新闻进行文本内容分析,确定关联关键词,并为每个关联关键词分配权重;内容生成部分,用于基于每个关联关键词和其对应的权重,以及时间、地点和派生事件关键词,进行内容生成。本发明实现了个性化、高质量和

  (19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117094291 A (43)申请公布日 2023.11.21 (21)申请号 3.3 G06N 3/045 (2023.01) G06N 3/0475 (2023.01) (22)申请日 2023.10.19 G06N 3/094 (2023.01) (71)申请人 济南伊特网络信息有限公司 地址 250014 山东省济南市历下区历山路 157号天鹅大厦921室 (72)发明人 王法争曲义伟褚福星王磊 刘爽徐巍巍罗燕范金鑫 (74)专利代理机构 济南方维专利代理事务所 (普通合伙) 37385 专利代理师 王乾 (51)Int.Cl. G06F 40/166 (2020.01) G06F 16/335 (2019.01) G06F 16/9535 (2019.01) G06F 40/205 (2020.01) 权利要求书3页 说明书12页 附图1页 (54)发明名称 基于智能写作的自动新闻生成系统 (57)摘要 本发明属于人工智能技术领域,具体涉及基 于智能写作的自动新闻生成系统。所述系统包 括:关键词录入单元,用于提供给用户输入关键 词,所述关键词至少包括:时间、地点和事件关键 词,并针对输入的事件关键词进行关键词派生, 得到派生事件关键词;新闻核实部分,用于基于 时间、地点和派生关键词,进行新闻搜索,以获取 目标新闻,对目标新闻进行文本内容分析,确定 关联关键词,并为每个关联关键词分配权重;内 容生成部分,用于基于每个关联关键词和其对应 的权重,以及时间、地点和派生事件关键词,进行 内容生成。本发明实现了个性化、高质量和高效 A 的新闻报道生成,提升了信息传播的质量和效 1 率。 9 2 4 9 0 7 1 1 N C CN 117094291 A 权利要求书 1/3页 1.基于智能写作的自动新闻生成系统,其特征在于,所述系统包括:关键词录入单元, 用于提供给用户输入关键词,所述关键词至少包括:时间、地点和事件关键词,并针对输入 的事件关键词进行关键词派生,得到派生事件关键词;新闻核实部分,用于基于时间、地点 和派生关键词,进行新闻搜索,以获取目标新闻,对目标新闻进行文本内容分析,确定关联 关键词,并为每个关联关键词分配权重;内容生成部分,用于基于每个关联关键词和其对应 的权重,以及时间、地点和派生事件关键词,进行内容生成。 2.如权利要求1所述的基于智能写作的自动新闻生成系统,其特征在于,所述关键词录 入单元使用预设的关键词派生模型针对输入的事件关键词进行关键词派生;所述关键词派 生模型的训练方法包括:获取训练语料库,将训练语料库表示为文本集合: , 其中 是文本数量; 对于每个文本 ,将其表示为词向量序列: , 其中, 表示文本 中的词数,为下标,取值为1到 的整数;定义一个嵌入层,将每 个词向量 映射到连续的潜在空间中;定义模型的生成器网络为 ,则生成器网络的函数 表达式为: ; 其中 是从潜在空间中随机采样的噪声向量,是一个条件向量,用于指导生成器生成 特定类型的关键词;为生成的关键词序列;定义模型的判别器网络为 ,则判别器网络的 函数表达式为: ; 其中 表示生成的关键词序列 中的词在条件向量为 的情况下为文本集合中的词的 平均概率;基于嵌入层,生成器网络和判别器网络,构建一个生成对抗网络;迭代训练判别 器网络和生成器网络,直到 的概率超过设定的阈值。 3.如权利要求2所述的基于智能写作的自动新闻生成系统,其特征在于,所述生成对抗 网络的损失函数使用如下公式进行表示: ; 其中 是生成器网络生成关键词序列 时的条件分布, 是条件向量 的先 验分布,是KL散度的权重; 为生成对抗网络的损失函数值。 4.如权利要求3所述的基于智能写作的自动新闻生成系统,其特征在于,所述判别器网 络在进行训练时,其损失函数使用如下公式进行表示: ; 其中 是正则化项的权重, 是判别器网络的正则化损失; 为文本集合中的词 组成的词序列。 5.如权利要求4所述的基于智能写作的自动新闻生成系统,其特征在于,所述生成器网 络在进行训练时,其损失函数使用如下公式进行表示: 2 2 CN 117094291 A 权利要求书 2/3页 ; 其中, 和 是正则化项的权重, 是生成器网络的正则化损失。 6.如权利要求5所述的基于智能写作的自动新闻生成系统,其特征在于,所述新闻核实 部分对目标新闻进行文本内容分析,确定关联关键词,并为每个关联关键词分配权重的方 法包括:对目标新闻进行数据预处理,包括文本清洗、分词和词干化,预处理后的文本表示 为词序列: , 其中 是目标新闻中词的数量;为了捕捉目标新闻中词之间的关联关系,构建一个词共 现矩阵 ,其中 表示词 和词 在同一文本中共现的次数;通过词共现矩阵 ,计算词之 间的关联度;基于计算的词关联度,构建一个词关联图,其中节点表示词,边表示词之间的 关联关系,边的权重由词关联度值来表示;对构建的词关联图进行图分析,以确定关联关键 词,具体包括:使用PageRank算法识别在词关联图中的关键节点,所述关键节点代表词关联 度值超过设定阈值的关键词,将这些关键词作为关联关键词;将这些关联关键词对应的词 关联度值作为其权重。 7.如权利要求5所述的基于智能写作的自动新闻生成系统,其特征在于,所述内容生成 部分,基于每个关联关键词和其对应的权重,以及时间、地点和派生事件关键词,进行内容 生成的方法包括:将关联关键词、权重、时间、地点和派生事件关键词,分别表示为: , , ,和 ,其中 是关联关键词数量, 是关联关键词, 是对应的权重,是时间, 是地点,是派生事件关键词;为所有的关联关键词组成的关联关键词的序列; 为所有 关联关键词的权重组成的权重序列;使用语料库 来训练一个用于自然 语言生成任务的Transformer模型;通过将关键词依次输入Transformer模型并提取其潜在 表示来完成将关联关键词嵌入到潜在空间中,表示为: ; 使用Transformer模型生成时间和地点的嵌入表示,表示为 和 ;使用Transformer 模型生成派生事件关键词 的嵌入表示,表示为 ;计算加权嵌入 ;使用生成器部分的 Transformer模型,将加权嵌入 输入,通过自动回归生成文本的方式生成文本内容,通过 不断生成文本,直到生成一个完整的新闻文章或段落为止。 8.如权利要求7所述的基于智能写作的自动新闻生成系统,其特征在于,使用如下公 式,计算加权嵌入 : ; 其中, ,和 分别是时间、地点和事件关键词的权重。 9.如权利要求7所述的基于智能写作的自动新闻生成系统,其特征在于,使用生成器部 分的Transformer模型,将加权嵌入 输入,通过自动回归生成文本的方式生成文本内容的 公式为: ; 3 3 CN 117094291 A 权利要求书 3/3页 其中,代表生成的词汇的概率分布,使用softmax函数来计算下一个词 的概率分 布,表示为: ; 概率分布 表示在给定前面生成的词 和上下文信息为 的情况下, 下一个词 是词汇表中每个可能词的概率;对于词汇表中的每个词,softmax函数将计算 其生成的概率,然后选择概率最高的词作为下一个要生成的词;这个过程不断迭代,生成文 本的每个词,直到满足生成文本的长度或其他停止条件; 是要生成的第 个词; 是已经生成的前 个词;是加权嵌入,作为上下文信息,通过与已 生成的词一起输入到模型中; 是Transformer模型的隐藏状态,表示为: ; 其中, 表示Transformer模型,接受已生成的词和上下文信息 作为输入, 产生隐藏状态 ; 是输出层的权重矩阵,用于将Transformer模型的输出映射到词汇表 的概率分布空间。 4 4 CN 117094291 A 说明书 1/12页 基于智能写作的自动新闻生成系统 技术领域 [0001] 本发明属于人工智能技术领域,具体涉及基于智能写作的自动新闻生成系统。 背景技术 [0002] 在信息时代,新闻报道是传播信息和观点的关键渠道之一。然而,随着信息量的不 断增加,传统的新闻生产方式已经难以满足快速、多样和个性化的信息需求。传统新闻报道 通常需要大量的人力和时间来收集、编辑和发布新闻,这导致了信息的延迟和有限的覆盖 范围。为了解决这些问题,基于智能写作的自动新闻生成系统应运而生。本背景技术将介绍 这一领域的现有技术,并指出其存在的问题,以引出本发明的创新性和重要性。 [0003] 传统的新闻编辑和发布过程通常需要新闻编辑人员手动搜集、编辑和排版新闻内 容。这个过程耗时且容易受到人为因素的影响,导致新闻的发布速度慢,且可能存在编辑错 误。此外,传统新闻媒体的报道往往受限于资源和时间,无法满足每个读者的个性化需求。 [0004] 为了提高新闻发布的速度,一些媒体采用了基于关键词的自动新闻生成系统。这 些系统通常通过收集特定关键词的信息并自动生成新闻报道。然而,这种方法存在一些问 题。首先,它们通常无法提供高质量的新闻内容,因为它们缺乏文本的深度分析和编辑。其 次,这些系统难以处理复杂的事件,因为它们只能生成与输入关键词直接相关的信息,而不 能理解事件的上下文和背景。近年来,自然语言处理(NLP)技术取得了显著的进展,包括文 本生成、文本分析和语义理解。这些技术为自动新闻生成提供了更多可能性。然而,现有的 NLP技术仍然存在一些限制。例如,它们难以准确捕捉文本的语境和情感,容易产生不连贯 或不准确的文本。 发明内容 [0005] 本发明的主要目的在于提供基于智能写作的自动新闻生成系统,通过关键词派 生、生成对抗网络和深层次文本分析,实现了个性化、高质量和高效的新闻报道生成,提升 了信息传播的质量和效率。 [0006] 为解决上述技术问题,本发明提供基于智能写作的自动新闻生成系统,包括:关键 词录入单元,用于提供给用户输入关键词,所述关键词至少包括:时间、地点和事件关键词, 并针对输入的事件关键词进行关键词派生,得到派生事件关键词;新闻核实部分,用于基于 时间、地点和派生关键词,进行新闻搜索,以获取目标新闻,对目标新闻进行文本内容分析, 确定关联关键词,并为每个关联关键词分配权重;内容生成部分,用于基于每个关联关键词 和其对应的权重,以及时间、地点和派生事件关键词,进行内容生成。 [0007] 进一步的,所述关键词录入单元使用预设的关键词派生模型针对输入的事件关键 词进行关键词派生;所述关键词派生模型的训练方法包括:获取训练语料库,将训练语料库 表示为文本集合: , 其中 是文本数量。 5 5 CN 117094291 A 说明书 2/12页 [0008] 对于每个文本 ,将其表示为词向量序列: 。 [0009] 其中, 表示文本 中的词数,为下标,取值为1到 的整数;定义一个嵌入层, 将每个词向量 映射到连续的潜在空间中;定义模型的生成器网络为 ,则生成器网络的 函数表达式为: 。 [0010] 其中 是从潜在空间中随机采样的噪声向量,是一个条件向量,用于指导生成器 生成特定类型的关键词;为生成的关键词序列;定义模型的判别器网络为 ,则判别器网 络的函数表达式为: ; 其中 表示生成的关键词序列 中的词在条件向量为 的情况下为文本集合中的 词的平均概率;基于嵌入层,生成器网络和判别器网络,构建一个生成对抗网络;迭代训练 判别器网络和生成器网络,直到 的概率超过设定的阈值。 [0011] 进一步的,所述生成对抗网络的损失函数使用如下公式进行表示: ; 其中 是生成器网络生成关键词序列 时的条件分布, 是条件向量 的先验分布,是KL散度的权重; 为生成对抗网络的损失函数值。 [0012] 进一步的,所述判别器网络在进行训练时,其损失函数使用如下公式进行表示: ; 其中 是正则化项的权重, 是判别器网络的正则化损失; 为文本集合 中的词组成的词序列。 [0013] 进一步的,所述生成器网络在进行训练时,其损失函数使用如下公式进行表示: ; 其中, 和 是正则化项的权重, 是生成器网络的正则化损失。 [0014] 进一步的,所述新闻核实部分对目标新闻进行文本内容分析,确定关联关键词,并 为每个关联关键词分配权重的方法包括:对目标新闻进行数据预处理,包括文本清洗、分词 和词干化,预处理后的文本表示为词序列: , 其中 是目标新闻中词的数量;为了捕捉目标新闻中词之间的关联关系,构建一 个词共现矩阵 ,其中 表示词 和词 在同一文本中共现的次数;通过词共现矩阵 ,计 算词之间的关联度;基于计算的词关联度,构建一个词关联图,其中节点表示词,边表示词 之间的关联关系,边的权重由词关联度值来表示;对构建的词关联图进行图分析,以确定关 联关键词,具体包括:使用PageRank算法识别在词关联图中的关键节点,所述关键节点代表 词关联度值超过设定阈值的关键词,将这些关键词作为关联关键词;将这些关联关键词对 应的词关联度值作为其权重。 [0015] 进一步的,所述内容生成部分,基于每个关联关键词和其对应的权重,以及时间、 6 6 CN 117094291 A 说明书 3/12页 地点和派生事件关键词,进行内容生成的方法包括:将关联关键词、权重、时间、地点和派生 事件关键词,分别表示为: , , ,和 ,其中 是关联关键词数量, 是关联关键词, 是对应的权重,是时 间,是地点,是派生事件关键词;为所有的关联关键词组成的关联关键词的序列; 为 所有关联关键词的权重组成的权重序列;使用语料库 来训练一个用于 自然语言生成任务的Transformer模型;通过将关键词依次输入Transformer模型并提取其 潜在表示来完成将关联关键词嵌入到潜在空间中,表示为: 。 [0016] 使用Transformer模型生成时间和地点的嵌入表示,表示为 和 ;使用 Transformer模型生成派生事件关键词 的嵌入表示,表示为 ;计算加权嵌入 ;使用生 成器部分的Transformer模型,将加权嵌入 输入,通过自动回归生成文本的方式生成文本 内容,通过不断生成文本,直到生成一个完整的新闻文章或段落为止。 [0017] 进一步的,使用如下公式,计算加权嵌入 : ; 其中, ,和 分别是时间、地点和事件关键词的权重。 [0018] 进一步的,使用生成器部分的Transformer模型,将加权嵌入 输入,通过自动回 归生成文本的方式生成文本内容的公式为: 。 [0019] 其中,代表生成的词汇的概率分布,使用softmax函数来计算下一个词 的概率 分布,表示为: 。 [0020] 概率分布 表示在给定前面生成的词 和上下文信息为 的情 况下,下一个词 是词汇表中每个可能词的概率;对于词汇表中的每个词,softmax函数将 计算其生成的概率,然后选择概率最高的词作为下一个要生成的词;这个过程不断迭代,生 成文本的每个词,直到满足生成文本的长度或其他停止条件; 是要生成的第 个词; 是已经生成的前 个词;是加权嵌入,作为上下文信息,通过与已 生成的词一起输入到模型中; 是Transformer模型的隐藏状态,表示为: ; 其中, 表示Transformer模型,接受已生成的词和上下文信息 作为 输入,产生隐藏状态 ; 是输出层的权重矩阵,用于将Transformer模型的输出映射到词 汇表的概率分布空间。 [0021] 本发明的基于智能写作的自动新闻生成系统,具有以下有益效果:本发明中,用户 可以输入关键词,包括时间、地点和事件关键词,这些关键词不仅用于定制化新闻报道,还 通过关键词派生的方式,得到派生事件关键词。这一创新性的步骤极大地丰富了新闻报道 7 7 CN 117094291 A 说明书 4/12页 的信息内容。与传统基于关键词的新闻生成系统不同,本发明通过关键词派生,能够捕捉更 多相关信息,使得新闻报道更加全面和深入。例如,如果用户输入科技展览作为事件关键 词,系统可以派生出人工智能、未来技术等相关关键词,从而生成更富有深度和广度的 新闻报道。这种个性化和深层次的关键词处理有助于提高新闻报道的质量和准确性,使其 更具信息价值。本发明构建了生成对抗网络(GAN),用于提高生成的新闻报道的质量和连贯 性。生成器网络(G)和判别器网络(D)的结合,使得系统能够自动生成符合语法和语义规则 的新闻内容。判别器网络通过对生成的内容进行评估,有助于排除不准确和不连贯的信息。 这一机制极大地提高了新闻报道的可读性和准确性。与传统基于关键词的自动新闻生成系 统相比,本发明的GAN框架能够生成更加自然和流畅的文本,避免了晦涩难懂的表达和信息 不连贯的问题。通过提升生成质量,本发明能够满足用户对高质量新闻报道的需求。本发明 的新闻核实部分具备处理复杂事件和深层次文本分析的能力。通过词共现矩阵的构建和词 关联图的分析,系统能够识别关联关键词并为其分配权重,从而更好地理解新闻事件的上 下文和背景。这一过程有助于排除错误信息和提高报道的准确性。与传统基于关键词的自 动新闻生成系统相比,本发明的新闻核实部分能够处理多维度的新闻信息,提高了文本分 析的深度和准确性。这意味着用户将获得更加全面和可信的新闻报道,从而提高了信息的 质量和可用性。 附图说明 [0022] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 [0023] 图1为本发明实施例提供的基于智能写作的自动新闻生成系统的系统结构示意 图。 具体实施方式 [0024] 下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。 [0025] 实施例1:基于智能写作的自动新闻生成系统,包括:关键词录入单元,用于提供给 用户输入关键词,所述关键词至少包括:时间、地点和事件关键词,并针对输入的事件关键 词进行关键词派生,得到派生事件关键词;新闻核实部分,用于基于时间、地点和派生关键 词,进行新闻搜索,以获取目标新闻,对目标新闻进行文本内容分析,确定关联关键词,并为 每个关联关键词分配权重;内容生成部分,用于基于每个关联关键词和其对应的权重,以及 时间、地点和派生事件关键词,进行内容生成。 [0026] 具体的,在用户输入事件关键词后,系统进行关键词派生。这意味着它可以分析输 入的事件关键词,例如,如果用户输入“火灾”,系统可以自动生成相关的派生事件关键词, 如“火灾原因”、“火灾受影响地区”等。这一步骤的创新性在于,它增加了系统理解用户需求 的能力,使系统能够更好地构建相关新闻。关键词派生的第一步涉及到文本分析和自然语 言处理技术。系统需要处理大量的文本数据,这可以是新闻文章、博客、社交媒体帖子等,以 了解与用户输入的事件关键词相关的内容。NLP技术可用于分词、词性标注、命名实体识别 8 8 CN 117094291 A 说明书 5/12页 等,以更好地理解文本中的关键信息。系统从处理的文本数据中提取与用户输入的事件关 键词相关的词汇。这些词汇可以是名词、动词、形容词等,与事件有关的各个方面都可以被 提取出来。例如,如果用户输入了“火灾”作为事件关键词,相关词汇可能包括“火源”、“扑 救”、“火势”等。一旦关键词被提取出来,系统通过语义关联分析来确定与这些关键词相关 的其他词汇。这可以通过词汇相似性、共现频率等方式来实现。例如,与“火灾”相关的词汇 可能与“事故”、“消防”、“火警”等有较高的语义关联性。在确定了与事件关键词相关的词汇 和它们的语义关联后,系统可以生成派生关键词。这些派生关键词可以是与事件关键词直 接相关的词汇,也可以是与相关词汇有关的词汇。例如,对于“火灾”事件关键词,可能生成 的派生关键词包括“火源检测”、“火警事故”、“火灾扑救”等。 [0027] 新闻核实部分首先负责在可用的新闻源或数据库中进行搜索,以找到与用户提供 的关键词(包括时间、地点和派生关键词)相关的新闻文章。这个步骤确保了生成的新闻与 用户感兴趣的事件有直接关联。一旦获取了目标新闻文章,新闻核实部分会对这些文章进 行文本内容分析。这包括自然语言处理技术的应用,以理解新闻的主题、情节、事件详情等。 通过文本内容分析,系统可以提取出新闻的关键信息,包括事实陈述、时间线、地点等。在文 本内容分析的基础上,新闻核实部分会确定与新闻文章相关的关键词。这些关键词可能包 括人物姓名、地点名称、事件名称等。通过确定关联关键词,系统可以更好地了解新闻的要 点和核心信息。为了提高生成的新闻内容的质量和相关性,新闻核实部分还会为每个关联 关键词分配权重。这些权重通常根据关键词在新闻文章中的重要性、出现频率、上下文等因 素来确定。高权重的关键词将在后续的内容生成过程中得到更多的关注。最后,新闻核实部 分负责进行质量控制。它可以检查新闻文章的可信度,排除虚假信息、不准确信息或不可靠 来源的内容。这有助于确保生成的新闻内容是可信赖的,满足新闻报道的标准。 [0028] 实施例2:所述关键词录入单元使用预设的关键词派生模型针对输入的事件关键 词进行关键词派生;所述关键词派生模型的训练方法包括:获取训练语料库,将训练语料库 表示为文本集合: , 其中 是文本数量。 [0029] 对于每个文本 ,将其表示为词向量序列: 。 [0030] 其中, 表示文本 中的词数,为下标,取值为1到 的整数;定义一个嵌入层, 将每个词向量 映射到连续的潜在空间中;定义模型的生成器网络为 ,则生成器网络的 函数表达式为: 。 [0031] 其中 是从潜在空间中随机采样的噪声向量,是一个条件向量,用于指导生成器 生成特定类型的关键词;为生成的关键词序列;定义模型的判别器网络为 ,则判别器网 络的函数表达式为: ; 其中 表示生成的关键词序列 中的词在条件向量为 的情况下为文本集合中的 词的平均概率;基于嵌入层,生成器网络和判别器网络,构建一个生成对抗网络;迭代训练 9 9 CN 117094291 A 说明书 6/12页 判别器网络和生成器网络,直到 的概率超过设定的阈值。 [0032] 具体的,将文本 分解为词向量序列 的主要作用是将自然语言文本转化为数值 形式的向量表示。计算机可以更容易地处理和分析向量数据,而不是处理原始文本。词向量 包含了词汇的语义信息。通过将文本中的每个词转换为对应的词向量,可以捕捉到词汇之 间的语义关系。这有助于模型理解文本的含义。词向量序列 保留了文本中词汇的顺序信 息,因此可以提供上下文信息。这在自然语言处理任务中非常重要,例如情感分析或文本生 成,因为上下文可以影响文本的解释和生成。 [0033] 首先,文本 被分成单词或标记。这个过程称为分词,它将文本划分为词汇单位。 每个词汇被映射到一个高维度的词嵌入空间中。词嵌入是一种表示词汇的方法,其中每个 词汇都被表示为一个实数向量。这些向量捕捉了词汇的语义关系,使得相似的词汇在嵌入 空间中距离较近。词向量序列 是将文本中的词汇按照它们在文本中的顺序排列而成。每 个词汇被用对应的词嵌入向量来表示。词向量序列 保留了词汇在文本中的上下文信息, 因为词汇的顺序被保留。这有助于模型更好地理解文本的语法和语义。 [0034] 生成器网络 的主要原理是将随机噪声向量 与条件向量 结合,通过神经网络 模型生成与输入条件 相关的关键词序列 。生成器网络使用生成模型,尝试从输入的潜在 空间中学习如何生成逼真的关键词序列。生成器的主要作用是产生与条件 相关的合成数 据,这里是关键词序列。在这个特定的场景中,生成器网络被训练为生成与用户需求和输入 关键词相关的关键词,以扩展关键词列表。 [0035] 判别器网络 的原理是通过另一个神经网络模型,评估生成器 生成的关键词序 列 在给定条件向量 的情况下是否看起来像真实的关键词。它接收生成的序列 和条件 ,并输出一个概率值 ,表示生成的序列 属于文本集合 中的词的平均概率。判别器的主 要作用是区分生成的关键词序列 是否与真实的关键词序列相似。通过训练判别器,可以 使其成为一个专家,能够判断哪些关键词序列看起来更真实,哪些看起来更虚假。这样的反 馈可以帮助生成器不断改进生成的关键词序列,以提高逼线] 在整个生成对抗网络GAN框架下,生成器网络 和判别器网络 之间存在一种博弈 的关系。生成器试图生成越来越逼真的数据以愚弄判别器,而判别器试图变得越来越善于 分辨真实数据和生成数据。这种博弈推动了生成器不断改进,最终生成更逼真的关键词序 列,从而提高了生成模型的性能。这个框架在许多应用中非常成功,包括图像生成、自然语 言生成和数据合成等。 [0037] 实施例3:所述生成对抗网络的损失函数使用如下公式进行表示: ; 其中 是生成器网络生成关键词序列 时的条件分布, 是条件向量 的先验分布,是KL散度的权重; 为生成对抗网络的损失函数值。 [0038] 具体的,生成器网络的目标是生成逼真的关键词序列 ,使其能够愚弄判别器网 络 ,因此损失函数 用于衡量生成器的性能。这个损失函数由两部分组成: 对抗损失项 :这一部分衡量了生成的关键词序列 被判别器网络 判定为真实数据的概率的负对数似然。生成器的目标是最小化这一项,以使生成的关键 词序列更难被判别器辨认为虚假。 10 10 CN 117094291 A 说明书 7/12页 [0039] KL散度项 :这一部分衡量了生成器网络生成条件向量 的 分布 与先验分布 之间的KL散度(Kullback‑Leibler散度)。KL散度用于测量 两个概率分布之间的差异。生成器的目标是最小化这一项,以使生成的条件向量分布接近 先验分布。 [0040] 具体解释: 是给定生成的关键词序列 后,生成器网络产生的条件向量 的分布。这 个分布表示了生成器生成关键词时的条件信息。 [0041] 是条件向量 的先验分布,它通常是根据应用需求或领域知识确定的。这个 分布提供了生成器生成条件向量的期望信息。 [0042] 是用于平衡对抗损失和KL散度项的权重。它可以控制生成器在学习过程中对两 个损失项的重视程度。如果 较大,生成器更注重匹配KL散度项,反之亦然。 [0043] 实施例4:所述判别器网络在进行训练时,其损失函数使用如下公式进行表示: ; 其中 是正则化项的权重, 是判别器网络的正则化损失; 为文本集合 中的词组成的词序列。 [0044] 具体的,判别器网络的目标是正确地区分生成的关键词序列 是否与真实的关键 词序列 相符。这个损失函数 由三部分组成: 真实数据项 :这一部分衡量了判别器网络 正确识别真实数据的概 率的负对数似然。因为真实数据被标记为“真实”,所以判别器的目标是最小化这一项。 [0045] 生成数据项 :这一部分衡量了判别器网络 正确识别生成的 关键词序列 是否虚假的概率的负对数似然。因为生成数据被标记为“虚假”,所以判别器 的目标是最小化这一项。 [0046] 正则化项 :这一部分是正则化项,用于控制判别器网络的复杂度。是正 则化项的权重,控制了正则化对总损失的影响。正则化项 的具体形式会根据具体应 用和网络结构而变化,它有助于防止判别器网络过拟合训练数据。 [0047] 是判别器网络 正确识别真实数据的概率。 表示生成数据和真实数据的权 衡,使得判别器的目标是使这两个概率尽量相等,而不是仅关注一方。 [0048] 是来自文本集合的真实关键词序列,它被用于训练判别器以识别线] 是正则化项的权重,它控制了正则化项在损失函数中的重要性。较大的 值将更 强烈地约束判别器的复杂度。 [0050] 实施例5:所述生成器网络在进行训练时,其损失函数使用如下公式进行表示: ; 其中, 和 是正则化项的权重, 是生成器网络的正则化损失。 [0051] 具体的,生成器网络的目标是生成逼真的关键词序列 ,同时保持生成的条件向 量分布接近先验分布,并控制生成器网络的复杂度。这个损失函数 由三部分组成: 对抗损失项 :这一部分衡量了生成的关键词序列 被判别器网络 11 11 CN 117094291 A 说明书 8/12页 判定为真实数据的概率的负对数似然。生成器的目标是最小化这一项,以使生成的关键 词序列更难被判别器辨认为虚假。 [0052] KL散度项 :这一部分衡量了生成器网络生成条件向量 的分布 与先验分布 之间的KL散度。KL散度用于测量两个概率分布之间的差 异。生成器的目标是最小化这一项,以使生成的条件向量分布接近先验分布。 [0053] 正则化项 :这一部分是正则化项,用于控制生成器网络的复杂度。 是 正则化项的权重,控制了正则化项在损失函数中的重要性。正则化项 的具体形式会 根据具体应用和网络结构而变化,它有助于防止生成器网络过拟合训练数据。 [0054] 是判别器网络 对生成的关键词序列 和条件向量 的判别概率。生成器 的目标是最大化这个概率,以使生成的序列更容易通过判别器的检测。 是给定生 成的关键词序列 后,生成器网络产生的条件向量 的分布。这个分布表示了生成器生成关 键词时的条件信息。 是条件向量 的先验分布,它通常是根据应用需求或领域知识确 定的。这个分布提供了生成器生成条件向量的期望信息。 和 是正则化项的权重,它们 控制了正则化项对总损失的影响。较大的权重将更强烈地约束生成器的复杂度。 [0055] 实施例6:所述新闻核实部分对目标新闻进行文本内容分析,确定关联关键词,并 为每个关联关键词分配权重的方法包括:对目标新闻进行数据预处理,包括文本清洗、分词 和词干化,预处理后的文本表示为词序列 ,其中 是目标新闻中词的数 量;为了捕捉目标新闻中词之间的关联关系,构建一个词共现矩阵 ,其中 表示词 和词 在同一文本中共现的次数;通过词共现矩阵 ,计算词之间的关联度;基于计算的词关联 度,构建一个词关联图,其中节点表示词,边表示词之间的关联关系,边的权重由词关联度 值来表示;对构建的词关联图进行图分析,以确定关联关键词,具体包括:使用PageRank算 法识别在词关联图中的关键节点,所述关键节点代表词关联度值超过设定阈值的关键词, 将这些关键词作为关联关键词;将这些关联关键词对应的词关联度值作为其权重。 [0056] 词共现矩阵的原理基于一个简单的观点:在同一篇文本中经常出现在一起的词汇 很可能具有一定的语义关联性。因此,通过统计每对词汇在同一篇文本中的共现次数,可以 衡量它们之间的关联程度。这是一种基于统计的方法,用于捕捉词汇之间的语义关系。 [0057] 具体来说,词共现矩阵的构建过程包括以下步骤: 遍历文本数据,对于每一篇文本,统计其中每对词汇的共现次数。 [0058] 创建一个词汇表,其中包含了文本中出现的所有不同词汇。 [0059] 构建一个矩阵,矩阵的行和列分别对应词汇表中的词汇,矩阵的元素 表示词汇 和词汇 在同一篇文本中的共现次数。 [0060] 词共现矩阵的主要作用是捕捉文本中词汇之间的关联关系和语义信息。它有以下 作用:词共现矩阵可以用于度量词汇之间的相关性。如果两个词汇经常在同一篇文本中共 现,它们在矩阵中的对应元素 将较大,表明它们可能具有一定的语义关联性。词共现矩 阵常用于自然语言处理任务中,如文本分类、信息检索和聚类。它可以用于计算词汇的相似 度,以帮助解决这些任务。词共现矩阵还可以用于从文本中提取特征。在文本挖掘和机器学 12 12 CN 117094291 A 说明书 9/12页 习任务中,可以将词共现矩阵中的元素作为特征,以训练模型或进行文本分析。 [0061] PageRank算法的计算过程基于以下原理: 初始时,所有节点的PageRank值被初始化为相等的值。 [0062] 然后,通过迭代计算,将节点的PageRank值根据与其相连的节点的重要性进行更 新。具体来说,节点的PageRank值将根据其入链(被其他节点链接到)的节点的PageRank值 来分配。 [0063] 在每一次迭代中,PageRank值会通过考虑入链节点的PageRank值和与每个入链节 点的链接权重来更新。 [0064] 迭代计算直到收敛,即节点的PageRank值不再发生显著变化为止。 [0065] 在词关联图中,每个节点表示一个词汇,边表示词汇之间的关联关系,边的权重表 示关联度值。通过应用PageRank算法,可以评估每个词汇的重要性。词汇节点的入链是指与 它有关联关系的其他词汇节点。PageRank算法会根据关联关系和关联度值来计算每个词汇 节点的PageRank值。最终,PageRank值高的词汇节点被认为是关键节点,代表关联度值超过 设定阈值的关键词。使用PageRank算法识别关键节点的作用是确定在词关联图中具有重要 性的词汇。这些关键词被认为在文本中具有重要性,并且它们通常与文本的主题或内容密 切相关。通过选择这些关键词作为关联关键词,可以提高对文本内容的理解和摘要生成等 自然语言处理任务的性能。PageRank算法是一种可靠的方法,因为它考虑了整个网络结构, 而不仅仅是单个节点的属性。 [0066] 实施例7:所述内容生成部分,基于每个关联关键词和其对应的权重,以及时间、地 点和派生事件关键词,进行内容生成的方法包括:将关联关键词、权重、时间、地点和派生事 件关键词,分别表示为: , , ,和 ,其中 是关联关键词数量, 是关联关键词, 是对应的权重,是时 间,是地点,是派生事件关键词;为所有的关联关键词组成的关联关键词的序列; 为 所有关联关键词的权重组成的权重序列;使用语料库 来训练一个用于 自然语言生成任务的Transformer模型;通过将关键词依次输入Transformer模型并提取其 潜在表示来完成将关联关键词嵌入到潜在空间中,表示为: 。 [0067] 使用Transformer模型生成时间和地点的嵌入表示,表示为 和 ;使用 Transformer模型生成派生事件关键词 的嵌入表示,表示为 ;计算加权嵌入 ;使用生 成器部分的Transformer模型,将加权嵌入 输入,通过自动回归生成文本的方式生成文本 内容,通过不断生成文本,直到生成一个完整的新闻文章或段落为止。 [0068] 具体的,嵌入的过程基于Transformer模型,这是一种深度学习架构,专门用于处 理序列数据,如文本。Transformer模型由多个注意力机制组成,能够捕捉序列数据中的上 下文信息和关系。在Transformer模型中,通常会包含一个词嵌入层(EmbeddingLayer),它 将每个词汇映射到连续的潜在空间中。这个映射过程是通过训练模型来学习的,使得相似 的词汇在潜在空间中具有相似的表示。将关键词依次输入Transformer模型的词嵌入层。每 13 13 CN 117094291 A 说明书 10/12页 个关键词经过嵌入层后,都会转化为一个潜在表示,即嵌入向量。嵌入向量是在潜在空间中 的数值表示,它们捕捉了关键词的语义信息和上下文信息。这些向量的维度通常由模型的 配置和训练数据决定。关键词嵌入将原始文本中的关键词转化为向量表示,使得模型可以 理解和处理这些关键词的语义信息。每个嵌入向量编码了关键词的语义含义,使得模型能 够更好地理解关键词之间的关系。由于Transformer模型能够捕捉上下文信息,关键词嵌入 还包含了关键词在给定上下文中的含义。这意味着相同的关键词在不同上下文中可能具有 不同的嵌入表示,有助于模型更好地理解关键词的语境。嵌入后的关键词向量可以作为模 型的输入,用于执行各种自然语言处理任务,如文本生成、情感分析、命名实体识别等。这些 任务可以受益于关键词的嵌入表示,因为它们提供了更丰富的语义信息。总之,关键词嵌入 通过将关键词映射到潜在空间中的向量表示,帮助模型更好地理解和处理文本数据。这个 过程允许模型捕捉语义和上下文信息,从而提高了自然语言处理任务的性能。在上述实施 例中,关键词嵌入是为了将关联关键词转化为模型可理解的形式,以便用于后续的文本生 成任务。 [0069] Transformer是一种深度学习架构,特别适用于处理序列数据,如文本。它由多层 自注意力机制(self‑attention)和前馈神经网络组成,能够捕捉文本中的上下文和语义信 息。自注意力机制允许模型在生成每个词或短语时,根据输入序列中其他词的上下文信息 来决定生成的内容。这有助于模型考虑文本中不同词之间的依赖关系。在文本生成任务中, 通常采用自动回归(Autoregressive)的方式。这意味着模型从左到右逐步生成文本,每次 生成一个词或短语。生成的词会被添加到已生成的文本序列中,成为下一步生成的上下文。 文本生成的主要作用是自动生成自然语言文本,如新闻文章、故事、评论等。这使得模型能 够在不需要人工编写的情况下生成有意义的文本。使用加权嵌入 作为模型的输入,可以 将关键信息(关键词和权重)与上下文信息(时间、地点、派生事件关键词)结合起来,生成与 给定条件相符的文本。这使得生成的文本可以根据特定的要求和上下文进行自定义。自动 化文本生成可以大大提高文本创作的效率,特别是在生成大量相似内容的情况下,如新闻 报道的不同版本。文本生成通过利用Transformer模型的自注意力机制和自动回归生成方 式,允许模型根据输入条件生成自然语言文本。这种技术在自动化内容生成和自然语言处 理任务中具有广泛的应用,能够提高文本创作的效率和质量。在上述实施例中,文本生成用 于生成新闻文章或段落,根据关键信息和上下文条件自动生成文本内容。 [0070] 实施例8:使用如下公式,计算加权嵌入 : ; 其中, ,和 分别是时间、地点和事件关键词的权重。 [0071] 具体的,关键词嵌入加权部分 将关键词嵌入 与对应的权重 相乘, 并对所有关键词的加权嵌入进行求和。这表示了关键词在生成文本时的重要性,权重越大 的关键词在加权嵌入中占据的比重越高。通过对关键词进行加权嵌入,可以确保在文本生 成过程中更加关注与权重较高的关键词相关的信息。这有助于生成的文本更加贴合关键信 息。时间信息部分 将时间嵌入 进行对数运算,然后乘以权重 。对数运算 通常用于对大范围的数值进行压缩,以便更好地融入加权嵌入的范围。对时间信息进行对 数运算,可以将时间信息的尺度压缩,使其更适合与其他信息源(如关键词)相结合。这有助 14 14 CN 117094291 A 说明书 11/12页 于平衡不同信息源之间的贡献。地点信息部分 将地点嵌入 的绝对值应用 指数运算,然后乘以权重 ,同时将事件关键词嵌入 的范数(模)应用 次方运算。这部分 的计算对地点和事件关键词的嵌入进行了尺度调整和扩充。指数和次方运算可以使这些信 息在加权嵌入中具有更大的影响力,从而确保它们能够在生成文本时发挥作用。 和 这些权重系数用于控制各个信息源的相对重要性。通过调整这些权重,可以在生成过程中 灵活地调整不同信息源的贡献。权重允许根据任务和需求来平衡不同信息源的作用。较大 的权重使相应信息源的影响更显著,而较小的权重则减弱相应信息源的影响。 [0072] 实施例9:使用生成器部分的Transformer模型,将加权嵌入 输入,通过自动回归 生成文本的方式生成文本内容的公式为: 。 [0073] 其中,代表生成的词汇的概率分布,使用softmax函数来计算下一个词 的概率 分布,表示为: 。 [0074] 概率分布 表示在给定前面生成的词 和上下文信息为 的情 况下,下一个词 是词汇表中每个可能词的概率;对于词汇表中的每个词,softmax函数将 计算其生成的概率,然后选择概率最高的词作为下一个要生成的词;这个过程不断迭代,生 成文本的每个词,直到满足生成文本的长度或其他停止条件; 是要生成的第 个词; 是已经生成的前 个词;是加权嵌入,作为上下文信息,通过与已 生成的词一起输入到模型中; 是Transformer模型的隐藏状态,表示为: ; 其中, 表示Transformer模型,接受已生成的词和上下文信息 作为 输入,产生隐藏状态 ; 是输出层的权重矩阵,用于将Transformer模型的输出映射到词 汇表的概率分布空间。 [0075] 具体的,生成概率分布 是计算生成下一个词 的 条件概率分布。给定前面生成的词 和上下文信息 ,模型计算下一个词 属于词汇表中每个可能词的概率分布。这个概率分布表示在当前上下文信息下,每个可 能的词的生成概率。通过softmax函数,可以将这些概率值归一化,使得概率之和为1,然后 根据这个概率分布选择下一个词 。Softmax函数是用于将一组数值转化为概率分布的函 数。它接受输入向量,对每个元素进行指数运算,然后将结果归一化,以获得概率分布。 Softmax函数的作用是将生成的词汇概率分布的原始分数转化为概率值,确保这些概率值 之和为1,使得模型可以选择下一个词汇。Transformer模型是一种深度神经网络结构,它接 受已生成的前面的词汇 和上下文信息 作为输入,并产生隐藏状态 。 Transformer模型的作用是捕捉文本中的语法和语义信息,并将这些信息编码为隐藏状态 。这个隐藏状态将用于计算下一个词汇的生成概率。输出层权重矩阵 用于将 Transformer模型的输出映射到词汇表的概率分布空间。输出层权重矩阵的作用是将隐藏 状态 转化为生成下一个词汇的概率分布。它通过线性变换将模型输出与词汇表的每个词 15 15 CN 117094291 A 说明书 12/12页 联系起来,以计算概率分布。迭代生成文本通过不断迭代生成文本的每个词汇,直到满足生 成文本的长度或其他停止条件。模型根据当前上下文信息和前面已生成的词汇,使用概率 分布 预测并生成下一个词汇 ,然后将 添加到已生成的 文本序列中,继续预测下一个词汇,直到生成完整的文本。 [0076] 虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些 具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下, 可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而 按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因 此,本发明的范围仅由所附权利要求书限定。 16 16 CN 117094291 A 说明书附图 1/1页 图1 17 17

  2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问加。

  3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。

  4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者

推荐资讯