咨询热线

021-68910959

主页 > 爱博体育新闻动态 > 爱博体育公司新闻 >


爱博体育app音视频搜索技术的
日期:2023年01月24日    来源:未知

  爱博体育app音视频搜索技术的据6月12日的美国《技术评论》杂志报道,总部位于美国波士顿的EveryZing公司已经研发出新一代音视频搜索引擎。该产品有望改变以往的在线音视频内容搜索方式。

  据悉,这款产品的前身是Podzinger。它采用BBN公司的语音识别技术,爱博体育app能够自动将语音转换成纯文字,作为搜索关键词的一部分。网民甚至可以指定收听只含有其搜索关键词的那一小段音频,而非全部音频文件。而且,该产品进一步拓展了BBN公司原有技术的性能,爱博体育app其语音转换成纯文字的准确率可以达到80%。EveryZing公司的首席执行官汤姆王尔德(Tom Wilde)认为,这已是目前音视频搜索领域所能达到的最好指标。

  据悉,EveryZing公司新产品的底层技术由BBN的两项基础技术组成。其中一项是语音到文本的技术。“这一技术在过去的5年中已经得到了美国政府5000万美元的资金支持。”汤姆王尔德说。这一技术能够以同步的方式将语音转换为文本。第二项技术是处理文本内容的运算法则,利用这一技术,系统能识别出一些模糊不清的字句。

  相关资料显示,在目前对于互联网的各项需求中,看视频已经成为仅次于下载和浏览网页的第三大需求。随着技术的发展,使用多种终端,特别是使用计算机和手机收看视频,是已经和正在发生的重要变化。如果还仅仅用电视机看视频节目内容,那就有可能成为“今之古人”。从20世纪90年代中期起,互联网上的流媒体(Streaming Media)技术开始起步,经过10多年的发展,网络音视频(Webcasting)已成为一个独立的概念和分支。

  然而,对于目前主流的搜索引擎技术而言,最为薄弱的一个环节就是音视频搜索。现在大多数网络搜索引擎搜索多媒体文件是通过扫描分析与网页内容一致的“元数据”(Metadata)来实现的。所谓元数据指的是出现在网页中有关文件的一些信息,如视频文件的标签、分辨率、版权信息、关键词等,用以提供链接使其他网站链接到该文件。但是,因为元数据往往不完全,或者经常与音频视频本身的内容并不一致,所以搜索的结果的准确性和相关性常常不是很高,并不能令人满意。这对于Google和雅虎这种占据市场主导地位、具有最好的搜索技术的公司来讲,是一种主要的弱点。

  近年来,BBN公司、麻省理工学院、卡内基梅隆大学、IBM公司等开始致力于“语音文本转换技术”的研究。其中,许多初期工作都肇始于BBN公司。BBN公司自20世纪40年代晚期就开始声学研究,并且是美国国防部高等研究计划局(DARPA)大部分语音识别研究项目的主要承担者。2006年,BBN发布了新式搜索引擎Podzinger,利用其语音识别技术优势将“语音文本转换技术”应用于互联网音频视频搜索。爱博体育app这对于使用“元数据”做简单搜索的主流搜索引擎,无疑是一种根本的威胁。

  卡内基梅隆大学计算机科学学院电子和计算机工程系教授理查德斯特恩(Richard Stern)认为,具备这些能力的音视频搜索引擎的出现可谓恰逢其时。“与文本信息相比,音视频是目前互联网上更具吸引力的内容,而且在网络内容中占据了相当大的比重。”他认为,目前80%的准确率已经是相当可观的成就,对于搜索在线内容已经足够了。

  “不过,这一技术仍存在有待改进的地方。”汤姆王尔德说。例如,当有背景音乐存在或者多人一起谈话时,软件识别的准确率就会下降。不过,他相信,对于该公司目前正在致力开拓的信息娱乐和新闻市场而言,这一技术仍会产生相当大的影响。