QQ:站内信联系

您的位置:主页 > 百事娱乐资讯 > 公司新闻 >

公司新闻

联系我们

电话:400-123-4567

Email: admin@baidu.com

传真:+86-123-4567

手机:13888888888

一种基于智能机器人的新闻稿生成方法与流程

发布时间:2024-01-25 07:05人气:71

  本发明属于无界传媒智能新闻机器人技术领域,特别是涉及一种基于智能机器人的新闻稿生成方法。

  继移动互联网之后,人工智能浪潮已开始掀起,迅速进入机遇期。今年5、6月,国务院连续印发了《中国制造2025》和《关于积极推进互联网+行动的指导意见》两个国家战略层面的文件,将我国智能产业推入快速发展的轨道。在“2015第五届中国智能产业高峰论坛”上,多位院士、专家解读了人工智能、互联网和智能制造的趋势和技术,人工智能技术将为基于互联网和移动互联网等领域的创新应用提供核心技术。

  人工智能与媒体如何融合?互联网上有海量的信息,如何从浩瀚的资讯中找出最可能受关注的数据?如何从数据中提取观点?如何通过文字展示情感偏向?如何根据线索写出新闻报道?利用大数据分析、深度学习让机器自动撰写新闻,已经成为目前亟待解决的技术问题。

  本发明的目的通过以下技术方案实现:一种基于智能机器人的新闻稿生成方法,所述方法包括以下步骤:

  步骤2、对抓取的数据进行挖掘,提取出人物、公司和事件;利用文本分析技术对所述人物、公司和事件进行分析,构建热点识别模型,识别出热点人物、公司和事件;

  步骤3、对所述热点人物、公司和事件进行分类和排名,评选出每周最热的人物、公司和事件,推荐给智能机器人;

  步骤4、被采访用户发出语音指令,智能机器人获取语音识别出用户关注的新闻命令,进行大数据分析检索,检索出符合特征新闻,根据评选出的每周最热的人物、公司和事件进行特征匹配优先级判定,筛选出优先级最高的新闻,进行文字语音合成并采访播报,从而形成采访记录语音;

  步骤5、基于规则化大数据进行综合处理与转换,形成分类新闻原始数据集合,通过构建句子、段落和篇章级语料库模板,建立具有综合能力特征的新闻合成模板和语料合成模型;

  步骤6、建立采访记录语音所合成的文字与新闻合成模板模糊匹配模型,采用多种数据合成、语料合成、数据替换、模糊比较与趋势-历史构建技术和规则化dom文本生成技术,自动撰写适合特定主题的新闻稿件。

  进一步地,所述综合能力特征包括充分融合规则数据分析、趋势分析和历史大比较分析。

  进一步地,所述步骤4包含第一交流过程和第二交流过程,第一交流过程为被采访用户与智能机器人的自由交流过程,第二交流过程为智能机器人采访交流过程。

  步骤4.3、智能机器人获取提问语音,对语音进行识别,将识别后的文字进行存储;

  步骤4.4、对存储的文字进行最长公共子序列算法匹配,找到对应的预置问题答案,所述问题答案为语音形式,对所述问题答案进行播放;

  步骤4.5、智能机器人识别交流是否结束,如结束,则获取结束交流命令字结束第一交流过程;如未结束则返回步骤4.2。

  步骤4.10、进行语音停顿识别,如果达到停顿识别计时,则将语音识别为文字并显示在屏幕上;如果未达到停顿识别计时,则返回步骤4.9;

  步骤4.12、判断全部提问是否完毕,如果完毕,则播放感谢接受采访,结束第二交流过程;如果未全部提问完毕,则返回步骤4.8智能机器人继续播放采访问题语音。

  下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

  本发明以语音交互为主要人机交互界面。通过采用网络爬虫和hadoop等技术对互联网财经类大数据进行检索、抓取、分析、抽取、标注、分类和存储查询。实现评选每周最热的事件、人物和公司,形成分类排名、专业化推荐功能。基于购买的规则化财经大数据进行综合处理、转换,形成分类新闻原始数据集合,通过进一步构建句子、段落和篇章级语料库模板,建立充分融合规则数据分析、趋势分析和历史大比较分析等综合能力特征的新闻合成模板和语料合成模型。建立特定新闻素材关键词匹配与检索的新闻模板模糊匹配模型和相关算法,最终采用多种数据合成、语料合成、数据替换、模糊比较与趋势-历史构建技术和规则化dom文本生成技术,自动撰写适合特定主体的新闻稿件。语音交互过程通过将系统支持的命令类型进行提取和关键词标注,形成可供用户使用的语音交互命令集合,例如:【今天的热点新闻有哪些?】【读第n条新闻】【有关于某某某的新闻吗?】【某某新闻有历史报道吗?】等。并可以对新闻进行语音合成,念给用户。

  hadoop是一个分布式系统基础架构,由apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

  hadoop实现了一个分布式文件系统(hadoopdistributedfilesystem),简称hdfs。hdfs有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。hdfs放宽了posix的要求这样可以流的形式访问文件系统中的数据。hadoop主要有以下优点:

  2.成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

  3.高效率:通过分发数据,hadoop可以在数据所在的节点上并行地(parallel处理它们,这使得处理非常的快速。

  4.可靠性:hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。

  结合图1-图6,本发明提出一种基于智能机器人的新闻稿生成方法,所述方法包括以下步骤:

  步骤2、对抓取的数据进行挖掘,提取出人物、公司和事件;利用文本分析技术对所述人物、公司和事件进行分析,构建热点识别模型,识别出热点人物、公司和事件;

  步骤3、对所述热点人物、公司和事件进行分类和排名,评选出每周最热的人物、公司和事件,推荐给智能机器人;

  智能机器人对主流新闻网站的财经类新闻板块内容进行搜索与数据抓取,通过大数据管理原始信息分类、分级预处理后存储,通过标题与新闻内容的分词与文摘处理对存储信息进行检索,并通过相似内容匹配对网站内容作出分类与排名。数据抓取是后续方法步骤的基础,抓取的数据用于后续步骤的输入。首先选定领域范围,本发明以财经领域为例,以及需要抓取的网站来源,抓取当天的数据,用于热点抽取。然后根据提供的人物,公司或者事件抓取相应的背景资料和评论。

  在互联网如新闻、社交媒体、自媒体上有大量的数据。这些数据中包含有民众的焦点和观点。通过对这些数据的挖掘,可以提取出人物、公司和事件。

  针对特定领域(财经领域)的数据,基于语料特征分析模型,分析出人物、公司和事件。利用文本分析技术对这些人物、公司和事件进行分析,构建热点识别模型,识别出热点人物、公司和事件。实现(财经领域)每周一个智能排行榜,评选每周最热的事件、人物和公司。

  步骤4、被采访用户发出语音指令,智能机器人获取语音识别出用户关注的新闻命令,所述新闻命令为语音关键命令词,获取语音命令关键命令词后进行大数据分析检索,检索出符合特征(即符合关键命令词的话题)新闻,根据评选出的每周最热的人物、公司和事件进行特征匹配优先级判定,特征匹配数量越多则优先级级别越高,筛选出优先级最高的新闻,进行文字语音合成并采访播报,从而形成采访记录语音;

  步骤5、基于规则化财经大数据进行综合处理与转换,形成分类新闻原始数据集合,通过构建句子、段落和篇章级语料库模板,建立具有综合能力特征的新闻合成模板和语料合成模型;所述综合能力特征包括充分融合规则数据分析、趋势分析和历史大比较分析。

  步骤6、建立采访记录语音所合成的文字与新闻合成模板模糊匹配模型,采用多种数据合成、语料合成、数据替换、模糊比较与趋势-历史构建技术和规则化dom文本生成技术,自动撰写适合特定主题的新闻稿件。

  a.交流人员进行提问,识别提问问题;(将提问问题转化为文字并存储之文件text1)

  b.新闻机器人对交流人员进行采访,交流人员的回答过程语音识别;(进行文字转后存储text2)

  机器人内置进行新闻采访的问题text3,通过语音合成系统进行外放;各个问题外放需要结合语音识别停顿进行播放控制;

  根据text1存储的文字,进行最长公共子序列算法匹配,找到对应的预置问题答案(音频),进行外放;

  应用新闻合成模板,将text2及text3内容合成插入,生成新闻稿(需人为干预处理)

  所述步骤4包含第一交流过程和第二交流过程,第一交流过程为被采访用户与智能机器人的自由交流过程,第二交流过程为智能机器人采访交流过程。

  步骤4.3、智能机器人获取提问语音,对语音进行识别,将识别后的文字进行存储;

  步骤4.4、对存储的文字进行最长公共子序列算法匹配,找到对应的预置问题答案,所述问题答案为语音形式,对所述问题答案进行播放;

  步骤4.5、智能机器人识别交流是否结束,如结束,则获取结束交流命令字结束第一交流过程;如未结束则返回步骤4.2。

  结合图8,通过识别自由交流结束命令字,转入机器人采访环节,机器人首先播报:“我是否可以采访您几个问题?”(语音播报);智能机器人进入等待用户发出当前环节开始命令字(可以/可以进行采访/好的/开始吧/可以开始等),获得可以采访命令关键字后,执行问题语音播放。获取用户回答问题的语音,进行语音识别并存储为文字,显示在屏幕上;所有由智能机器人发出的采访问题由预置语音进行存储,通过语音停顿识别进行问题语音播放控制。在每个问题回答完成后,由显示屏给出语音识别后的文字。

  步骤4.10、进行语音停顿识别,如果达到停顿识别计时,则将语音识别为文字并显示在屏幕上;如果未达到停顿识别计时,则返回步骤4.9;

  步骤4.12、判断全部提问是否完毕,如果完毕,则播放感谢接受采访,结束第二交流过程;如果未全部提问完毕,则返回步骤4.8智能机器人继续播放采访问题语音。

  以上对本发明所提供的一种基于智能机器人的新闻稿生成方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

推荐资讯