初探语音识别
今天的blog我本想用语记(科大讯飞的一个把语音转化为文字的手机app)去写,但我还是放弃了,因为说话太快,但我脑子转得太慢。我脑子的转速只和我敲键盘的匹配,所以虽然是输出同样的东西,拿着个手机说啊说我就乱套了,该说的没说,莫名其妙的停顿和错误一堆。平时说话的时候我不那样,因为在没想好之前我不会说,我开始的时候肯定脑子里已经有东西了,但显然我写blog的时候不是那么回事,我是边构思边输出的好吗!说一句话容易,但要说一大段之前完全没编排好的内容是另一回事。但其实如果一直要我一句话一句话地录音,可能我也会非常不习惯,我几乎就没用过微信的那种短语音功能。为什么我的语言障碍在我打电话和普通交流的时候不显露,在我录音的时候却会糟糕呢?大概是因为我很紧张吧。
很久以前我就已经听说过科大的讯飞,因为小米的语音助手一直都基于那个。语音助手好不好玩呢,我玩过,纯粹测试性质,觉得不怎么好玩。一直以来我都没有用过讯飞的产品,他们有做语音识别的,也有做字幕的。手机上的应用主要是语音输入法和录音类产品。搞不懂为什么他们在PC机上不提供,但在手机app里却有。今天下载了他们PC客户端的“字幕大师”,那是按时长收费的!有30分钟的试用时间,往后是字幕轴制作40元/小时,中文音频自动识别为字幕文字40元/小时,暂无法提供英文音频的字幕文字识别。我那个去!我赶紧删了,因为我的目的是用来识别英文。为什么要这么折腾呢?因为我想做TZP DVD正片附带的导演评论,那是AK在说英文,AK有浓重的口音,有人说他说的是标准的英式英语,但我怎么听怎么觉得怪怪的。在TZP的DVD bonus里所有视频都有CC字幕可提取,但在正片里可提取的字幕只是电影本身的,导演评论的音频不配有字幕,泪奔~~~ 既然讯飞能做中文语音识别,外国,尤其是英语的语音识别应该更加成熟才对有木有!否则烂果的siri怎么玩起来?!!!在度娘输入speech to text时出来的结果几乎都是text to speech的,尽管已经绝大部分是英文资源,但这显然不靠谱啊!所以呢,这种时候必须请教G老师。G老师出来的东西主要就是speech to text!我那个去,我一直都很嫌弃度娘,若不是G老师被墙需要翻,我绝对不会将贪图方便用度娘!在外语资源搜索方面,度娘简直就是渣渣之中的战斗机!!!关于speech to text,主要需要解决的是引擎问题,有IBM的,也有Google Speech的,据说G老师的已经很不错,而且提供开放的API,但我要的只是个软件啊,不过实际上只要联网连软件都不用,光是利用G老师API的网页工具就足够了。今天我播放了一段AK评论,分别用讯飞的语记和基于Google API的网页工具语音识别。识别的两段话不同,所以没有绝对的可比性,但显然用Google API的网页工具出来的东西更靠谱符合逻辑,起码呢,人家的语句是基本通顺的,思路也不会太跳跃,讯飞识别出来的某些段落云里雾里完全不知道在瞎掰些什么。当然了,基于Google API的网页工具选择的语言在英语之后还能选择英语所使用的国家的!我当然必须一定得选India啊!但讯飞认为英语就是一种,和普通话、粤语、四川话等列为不同的类别,我那个去!讯飞针对的是中文识别,外国人针对的是多种外语的识别,当然不一样了!如果我要把印度人说的英语听写出文字来,我理所当然得信赖外国人的东西,说不定Google Speech的印度英语真是印度码农开发的呢。
无论是用讯飞还是Google Speech,摆在我面前的是我都必须把2小时42分钟时长的音频完全播一遍,想想都觉得这不是一般的疯狂啊……
一座大山横在我前面,但山再大,也比我自己纯粹靠听译来得稍微靠谱……