自首次发明以来,语音识别软件已经取得了很大进步,但它仍然存在几个大问题,阻碍其专门用作转录方法。一些难以解决的语音识别问题包括单词发音的变化、个人口音、同音异义词和不需要的环境噪音。另一组语音识别问题涉及实际输入声音所使用的硬件类型,因为结果会对软件如何解释语音产生很大影响。还有一个问题是不知道所说单词的上下文,这可能导致文本没有标点符号或拼写不准确。
最基本的语音识别之一问题在于所使用的输入设备的质量。如果麦克风不够敏感或过于敏感,那么它可能会产生软件难以破译的音频信息。这是埃斯佩当麦克风非常敏感以至于语音失真时尤其如此,从而使识别软件几乎毫无用处。类似的问题源于背景噪声,背景噪声可能会导致从主要语音中分离出来,并且在包含在语音处理中时可能会导致翻译不准确。
麦克风过于敏感可能会产生语音识别软件难以破译的音频信息。发音、口音和说话节奏的差异结合起来形成了更普遍的语音识别问题之一。当一个单词可以用多种方式发音时,软件可能会变得混乱并误解所说的内容。当一个人说话速度比程序预期的慢或快时,也会发生同样的情况。那里有一些部分解决方案,例如以单个用户的语音模式训练软件并使用动态时间扭曲算法将语音与样本数据库进行匹配,但它们并不能解决所有问题。
最复杂的语音识别问题是识别所说单词的上下文。计算机软件无法识别单词集合的预期含义,导致转录文本出现许多问题。具有相似发音的单词,例如"their"和"there",只有在已知使用上下文的情况下才能准确拼写。出于同样的原因,软件几乎不可能仅根据单词顺序来放置准确的标点符号。有一些用于医学等领域的功能性转录软件,但结果通常是一堆没有任何类型分离的单词,这意味着仍然需要人工转录员来编辑文档d 创建一个可读的最终副本。







