阿里端出最强语音模型！英文rap精准转文字，准确率干翻全球

时间：2026-02-28 作者：佚名来源：网络

　　头图由AI生成

　　智东西

　　作者 | 程茜

　　编辑 | 心缘

　　智东西9月9日报道，昨天，阿里发布最新语音识别模型Qwen3-ASR-Flash，该模型基于Qwen3基座模型训练，支持11种语言和多种口音。用户可以通过ModelScope、HuggingFace和阿里云百炼API Qwen3-ASR-Flash免费体验。

　　在ASR（自动语音识别）的多项基准测试中，Qwen3-ASR-Flash在方言、多语种、关键信息识别、歌词等方面的识别错误率明显低于谷歌Gemini-2.5-Pro、OpenAI GPT-4o-Transcribe、阿里巴巴语音实验室Paraformer-v1、字节豆包Doubao-ASR。

　　具体来看，该模型支持中文、英语、法语、德语等11个语种，识别过程中能自动分辨语音语种、自动过滤静音和背景噪声等非语音片段，其是基于海量多模态数据以及千万小时规模的ASR数据构建的语音识别服务。

　　此外，用户还可定制ASR结果，通过在上传音频时添加关键信息术语、音频发生背景等上下文信息，就能使识别结果匹配这些已有信息。

　　下面是官方放出的电竞比赛解说音频示例。研究人员为这一场景配置了背景信息，包括关键词列表、这场游戏的背景等。因此识别结果中，即使电竞解说人员的语速非常快也没有影响识别游戏专业术语的效果。

　　https://oss.zhidx.com/f074b6bc991e71a6180104236b847d19/68c1a080/uploads/2025/09/68bf7afe744dc_68bf7afe6ff29_68bf7afe6fede_csgo.wav

　　ModelScope地址：

　　https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo

　　Hugging Face地址：

　　https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo

　　阿里云百炼API调用地址：

　　https://bailian.console.aliyun.com/tab=doc#/doc/type=model&url=2979031

一、能识别游戏解说、英文说唱，连续多种噪音抗干扰拉满

　　官方放出了5个演示示例，包含多种类型噪声、多语种快速切换、方言、专业名词的音频识别难题。

　　第一个是夹杂手机铃声、车铃声、音乐声、水声、雷声等多种类型的连续噪音，其中还会有不同人物之间切换对话，Qwen3-ASR-Flash在多人同时说话或者说话间隔非常短的情况下也对语音进行了准确识别，没有受到噪声干扰。

　　https://oss.zhidx.com/c7a9d70864ccb86e1720cd1bc647461e/68c1a080/uploads/2025/09/68bf7ae0b33d2_68bf7ae0ab8c0_68bf7ae0ab888_noise3.wav

　　第二个是英文说唱。英文说唱的特点是语速快、歌词中单词连读情况多，识别结果中很多歌词中的单词连读、长难句识别准确，且没有受到背景音乐的干扰。

　　https://oss.zhidx.com/fb33e7a6af96a76b08cd7eb68bee7a3a/68c1a080/uploads/2025/09/68bf7b0a871b3_68bf7b0a80b74_68bf7b0a80b42_en_rap2.wav

　　第三个是方言的识别。这一场景中，音频中主人公正在开车，有主人公的方言和智能语音客服的普通话穿插出现，音频中智能语音客服将“纠正”错误识别成了“96”，Qwen3-ASR-Flash进行了准确识别。

　　https://oss.zhidx.com/0a17b7271a1e0b752323dc83eb29ded1/68c1a080/uploads/2025/09/68bf7b174e73d_68bf7b1747a22_68bf7b17479f3_noise1.wav

　　第四个是多语种句子切换，7秒的音频里有英语、日语等5种语言，识别结果都进行了一一呈现。

　　https://oss.zhidx.com/1ad628e894d73ce8829db13e95c8f372/68c1a080/uploads/2025/09/68bf7b2154e14_68bf7b214eed6_68bf7b214eea3_mls3.wav

　　最后是化学课程的一段音频。识别结果中酯基、酸、醛、氨等化学名词，以及音频中人物的语气词识别并未出错。

　　https://oss.zhidx.com/355c6b770c91f1a38fd8e0a2d76168f1/68c1a080/uploads/2025/09/68bf7b289da6c_68bf7b2897f24_68bf7b2897ef8_course.wav

二、歌词识别错误率低于8%，可定制语音识别结果

　　性能表现，Qwen3-ASR-Flash的自动语音识别错误率，在中文、英文、多语言自动语音识别、歌词、关键信息识别的错误率都要低于Gemini-2.5-Pro、GPT-4o-Transcribe、Paraformer-v1、Doubao-ASR。

　　在歌词识别中，Qwen3-ASR-Flash支持清唱和带毕竟音乐的整首歌识别，研究人员实测识别错误率低于8%。

　　该模型支持普通话以及四川话、闽南语、吴语、粤语等方言，英式、美式及多地区口音的英语，其他语言如法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

　　如果想要获得定制化的ASR结果，用户可提供任意格式的背景文本来获得倾向性ASR结果，且用户无需对上下文信息进行预处理。

　　其支持的格式包括但不限于以下一种，简单的关键词或热词列表、任意长度和来源的完整段落或整篇文档、以任意格式混合的关键词列表与全文段落、无关甚至无意义的文本。研究人员提到，模型对无关上下文的负面影响具有高度鲁棒性。

　　基于此，Qwen3-ASR-Flash可以利用该上下文识别并匹配命名实体和其他关键术语，输出定制化的识别结果。

结语：后续将迭代通用语音识别精度

　　一直以来，复杂声学环境、多样化语音特征、专业术语等都是语音识别的最大难点。此次为了保证用户对输出结果的可控，阿里研究人员上线了背景文本上传功能，使得这一生成结果能更加符合用户的预期。

　　下一步，研究人员将提升Qwen3-ASR-Flash的通用识别精度，进一步降低普通用户的使用门槛。

本文标题：阿里端出最强语音模型！英文rap精准转文字，准确率干翻全球

本文链接：http://www.hniuzsjy.cn/wentan/132370.html

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。

推荐度：

推荐

文坛相关文章：