默认冷灰
24号文字
方正启体

03 语音和图像(1/2)

作者:南非闲人
最后一学期,是忙碌的一学期,所有同学都忙着找工作,在毕业即失业的大趋势下,也由不得这些同学不着急。论坛上不是说嘛,保研的过着猪一样的生活,考研的过着狗一样的生活,还有找工作的,过着猪狗不如的生活。这个话虽然过份了点,但至少说明了一点,现在出来混是相当难的,想要混得好就更难了。

不过王石没有打算出来找工作。考虑到那个神经元程序的发展前景,王石当前的目标是让它迅速成长,并发掘这个程序的潜力。王石觉得可以有这几个方面进行考虑,一个呢,是增加语音输入输出模块,还有一个就是图像的识别抽像以及归纳功能。还有呢,需要保证一下这个程序的安全。

因为考虑到现在语音输入软件已经比较成熟了,王石也不打算自己来开发这个软件,所以王石在网络上查了一下资料,最后选定开源的语音识别软件simon作为它的输入主体。

simon是一个开源的语音识别系统,它不仅可以输入文字,而且可以代替键盘、鼠标操作电脑。simon基于qt用c++开发,支持的语言相当少,但语言模型可以在任何语言下训练。网站上还有视频演示用simon键入文章、操控各种软件等应用,识别率相当高,而且有源代码可以下载。比较适合王石目前的需要。

王石在网络上下载了这个程序的源代码以后。打算把它移植过来,作为智能核心的外挂模块。

但既然有了源代码,那么总比从零开始要好得多,也不需要有多高的识别度,王石相信,只要把模块挂接到智能核心上,在经过一段时间学习以后,识别率自然会有更好的表现。

这个语音模块的移植,花了王石大约一个月的时间,经过测试。还是不令人满意。但是还有更重要的事情等着王石来解决。那就图像识别。

根据网络上查询的资料,现在最为广泛接受的图像识别模型叫“泛魔”识别模型

这是一种以特征分析为基础的图像识别系统。1959年b.塞尔弗里吉把特征觉察原理应用于图像识别的过程,提出了“泛魔”识别模型。

这个模型把图像识别过程分为不同的层次,每一层次都有承担不同职责的特征分析机制,它们依次进行工作,最终完成对图像的识别。

塞尔弗里吉把每种特征分析机制形像地称作一种"小魔鬼",由于有许许多多这样的机制在起作用,因此叫做“泛魔”识别模型。这一模型的特点在于它的层次的划分。

“泛魔”识别模型系统的图像识别共有4个层次。第一层是执行最简单任务的“映象鬼”,它们只是记录外界的原始形象,正像视网膜获得外界刺激的映象;然后由“特征鬼”进一步分析这个映象。在分析过程中,每个特征鬼都去寻找与自己有关的图像特征。例如,在识别英文字母时,每个特征鬼负责报告字母的一种特征及其数量,如垂直线、水平线、斜线、直角、锐角,不连续曲线和连续曲线等;再由“认知鬼”接受特征鬼的反应,每个认知鬼都从特征鬼的反应中寻找与自己负责识别的图像有关的特征,发现了这种特征时,它就“叫喊”,发现的特征越多,“叫喊”声越大;最后,“决策鬼”根据许多“认知鬼”“叫喊”声的大小,选择叫喊声最大的“认知鬼”的反应作为所要识别的图像。

例如在识别字母r时,“映象鬼”先对r进行编码,把信息传递给"特征鬼"作进一步加工,这时会有5个“特征鬼”分别报告图像所包括的一条垂线、两条水平线,一条斜线,3个直角和一条不连续曲线。然后许多"认知鬼"则根据所报告的这些特

征及其数量来识别是否是自己负责的字母。这时d、p、r鬼都会有反应,但p鬼只有4个特征与其符合,并有一特征(斜线)与其不符合;d鬼只有3个特征与其符合,并有两
本章未完,请翻下一页继续阅读.........
(←快捷键) <<上一章 投推荐票 回目录 标记书签 下一页>> (快捷键→)