QQ:站内信联系

您的位置:主页 > 百事娱乐资讯 > 公司新闻 >

公司新闻

联系我们

电话:400-123-4567

Email: admin@baidu.com

传真:+86-123-4567

手机:13888888888

基于AI自动生成稿件的方法、系统、装置和存储介质与流程

发布时间:2024-01-25 07:05人气:147

  本发明涉及信息处理技术领域,尤其涉及一种基于ai自动生成稿件的方法、系统、装置和存储介质。

  新闻的价值在于新闻的时效性,如突发或重大的新闻事件如果没能第一时间形成新闻广播出去,将会造成不良的后果。针对于突发时间的新闻,传统方式为:人工收集材料,人工编写新闻稿后,再进行报道,而人工无法做到24小时待命,且通过人工的方式收集材料和撰写文稿需要耗费大量的时间,难以满足及时并快速产出新闻稿的要求。

  为了解决上述技术问题,本发明的目的是提供一种能够及时并快速生产新闻稿件的方法、系统、装置和存储介质。

  结合新闻数据和预设的ai算法自动生成新闻初稿,对新闻初稿进行审核后,获得最终稿件。

  进一步,所述基于网络技术搜集文稿数据,根据文稿数据建立数据库这一步骤,具体包括以下步骤:

  利用预设的网络爬虫模型从预设的网站上抓取文稿数据,所述文稿数据包括文字信息、图片信息、视频信息或模型信息中的至少一种;

  进一步,所述结合新闻数据和预设的ai算法自动生成新闻初稿这一步骤,具体为:

  根据新闻数据确定新闻类型,根据新闻类型从预设的模板数据库中获取对应的新闻模板;

  将同一类提取特征后的历史新闻稿件作为训练集对神经网络进行训练后,获得新闻模板;

  采用查重技术检测到新闻初稿存在内容相同的句段,对相同的句段进行删减处理;

  结合预设的敏感词库检测新闻初稿中的敏感词,对检测到的敏感词进行替换处理。

  检测并获取新闻初稿中的数据信息,结合获取的数据信息和预设的图表数据库生成数据图,所述数据图包括柱状图、条形图、折线图、饼图、雷达图及散点图中至少一种。

  进一步,所述文稿数据包括新闻文稿、舆论文稿、论文文献及评论数据中至少一种。

  文稿生成模块,用于结合新闻数据和预设的ai算法自动生成新闻初稿,对新闻初稿进行审核后,获得最终稿件。

  所述爬虫搜索单元用于利用预设的网络爬虫模型从预设的网站上抓取文稿数据,所述文稿数据包括文字信息、图片信息、视频信息或模型信息中的至少一种;

  所述模板选择单元用于根据新闻数据确定新闻类型,根据新闻类型从预设的模板数据库中获取对应的新闻模板;

  所述数据填充单元用于采用预设的ai算法将新闻数据填写至新闻模板中,生成新闻初稿。

  当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。

  一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

  本发明的有益效果是:本发明只需输入关键词,自动从数据库或互联网搜索相关的新闻数据,并结合新闻数据和ai技术快速生成新闻稿件,无需人工搜集材料和撰写稿件,极大地提高了稿件生成的效率。

  以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。

  需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

  应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。

  如图1所示,本实施例提供了一种基于ai自动生成稿件的方法,包括以下步骤:

  本实施例中,可以基于大数据从网络上搜集下载文稿数据,例如,可下载海报数据、新闻稿件数据以及相关部门的年报数据;也可以通过网站页面截取文稿数据,比如,从新浪网新浪网、凤凰网或cctv网络页面下载相关的文稿数据。具体地,这些文稿数据包括新闻文稿、舆论文稿、论文文献及评论数据中至少一种。

  其中,通过在网络页面上获取文稿数据建立数据库的步骤具体包括s1011~s1012:

  s1011、利用预设的网络爬虫模型从预设的网站上抓取文稿数据,所述文稿数据包括文字信息、图片信息、视频信息或模型信息中的至少一种;

  在本实施例中,利用分布式爬虫从网站上抓取文稿数据,所述文稿数据包括文字信息、图片信息、视频信息或模型信息中的至少一种,其中,抓取数据的网站可以为网易、凤凰、腾讯等网站,所述模型信息包括人脸模型和动物模型等。具体地,在抓取过程中,可针对网络页面,抓取具有文稿数据的代码,其他周边的广告数据或者链接跳转数据的代码不抓取。对抓取的文稿数据进行分类,数据分类可以按照新闻的类型进行分类,比如国际新闻、社会新闻归一类,娱乐新闻、舆论数据又归一类,专利、论文文献和科学杂志信息又归一类;也可以按照数据文档格式进行分类,比如纯粹只有文字的归一类,图文并存的归一类,有图片又有评判的又归一类。具体归类发的方式按照实际需要进行,在此不进行具体的限定。对数据进行分类存储后,最终形成数据库。应该注意的是,所述数据库形成后,并非一成不变,而是实时根据搜索到的文稿数据进行更新,以保证数据库中包括有最新的消息,从而使生成的信息具有更高的时效性。

  当用户需要编辑文稿时,通过输入关键词,自动从预先建立的数据库中搜索并获取新闻数据,比如,当输入“某航班”、“失联”时,搜索并获取最近关于某航班失联的新闻数据;或者输入“王某强”、“离婚”的关键字时,搜索并获取最近关于王某强离婚的娱乐新闻数据;或者输入关键字“体彩”时,搜索并获取最近体彩的开奖数字以及中奖情况的新闻数据。当从数据库中查找不到相应的新闻数据,可直接从互联网上下载。

  s103、结合新闻数据和预设的ai算法自动生成新闻初稿,对新闻初稿进行审核后,获得最终稿件。

  所述ai算法可采用现有神经网络算法,对新闻数据进行分析,将从多个类型中获得的新闻数据进行有机结合,从而生成初稿。简单的方式,可以通过识别数据中的时间数据,再按照时间顺序进行排版;复杂的方式,可以通过训练识别各数据之间的连接关系,在结合连接关系进行排版,同时需要根据数据的内容(包括文字和图片等)选择相应的格式模板,再将新闻数据写入模板中。所述步骤s103具体包括步骤s1031~s1032:

  s1031、根据新闻数据确定新闻类型,根据新闻类型从预设的模板数据库中获取对应的新闻模板;

  s1032、采用预设的ai算法将新闻数据填写至新闻模板中,生成新闻初稿。

  a3、将同一类提取特征后的历史新闻稿件作为训练集对神经网络进行训练后,获得新闻模板;其中,多类新闻稿件对应多个新闻模板。

  预先通过获取大量的历史新闻稿件,所述历史新闻稿件为之前的新闻文献,包括图文信息和排版信息等。所述类型特征为稿件的类型信息,如论文、新闻、专利及评论文章等,针对其中的每一类还可继续划分,比如新闻的类型信息包括有图片的新闻信息和没有图片的新闻信息等。所述语料特征语句特征和词语特征,具体用于分析句子的语义,比如科技论文的语义与新闻的语义是不同的,通过识别不同的语义可实现区分文稿类型。所述结构特征为文稿的排版结构,包括不同类型的文章框架,比如包括正标题、副标题(摘要)和正文等,也包括正文中文字和图片的排版。

  获得新闻数据后,先判断新闻数据的类型,比如具体为有图文的新闻稿类型,则通过获取对应的新闻模板,将新闻数据按照新闻模板的格式进行排版,从而生成新闻初稿。对新闻初稿进行审核的步骤,具体可采用人工审核,也可以采用机器自动化方式审核;采用机器自动化方式审核的方式可以极大地提高效率,更适用于紧急的稿件。所述自动审稿具体包括步骤s1033~s1034:

  s1033、采用查重技术检测到新闻初稿存在内容相同的句段,对相同的句段进行删减处理;

  s1034、结合预设的敏感词库检测新闻初稿中的敏感词,对检测到的敏感词进行替换处理。

  由于数据库中存储的文稿数据为从多个网站中获取的,所以存有同一个新闻事件,不同的描述方式的情况,所以需要对新闻初稿进行查重处理,找出内容近似相同的段落,并对相同内容的段落进行删除处理。有些词汇可能涉及到政治敏感话题,需要对相关的敏感词进行屏蔽处理,比如从国外网站下载的内容中存有敏感词,则可采用“*”号代替该敏感词。

  检测并获取新闻初稿中的数据信息,结合获取的数据信息和预设的图表数据库生成数据图,所述数据图包括柱状图、条形图、折线图、饼图、雷达图及散点图中至少一种。

  针对有些新闻文稿中存有相关联数据的,获取文稿中的数据信息,比如一份关于中国进出口的年报数据,当中存有往年的进出口数据和今年的进出口数据,则通过获取同一类型的数据进行比对,结合图表数据库中预设的模型生成数据图,如此使生成的文稿更加直观。

  上述实施例能够基于关键字,快速地从数据库中搜索新闻数据,并自动化地生成新闻初稿,减少了人工的信息搜索及撰写的时间消耗,极大地提高出稿效率,降低了出稿成本,适用于突发的紧急事件等新闻的报道中。

  文稿生成模块,用于结合新闻数据和预设的ai算法自动生成新闻初稿,对新闻初稿进行审核后,获得最终稿件。

  本实施例的一种基于ai自动生成稿件的系统,可执行本发明方法实施例所提供的一种基于ai自动生成稿件的方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

  当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。

  本实施例的一种基于ai自动生成稿件的装置,可执行本发明方法实施例所提供的一种基于ai自动生成稿件的方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

  本实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

  本实施例的一种存储介质,可执行本发明方法实施例所提供的一种基于ai自动生成稿件的方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

  应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。

  此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

  进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、ram、rom等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。

  计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。

  以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

  1.计算机视觉 2.无线.计算机仿线.网络安全;物联网安全 、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用

  具有使得能够实现多维中的不同访问模式的配线结构的存储器架构的制作方法与工艺

  一种甘蓝型油菜萝卜细胞质不育恢复系的选育方法及在甘蓝型油菜育种上的应用与流程

推荐资讯