文章来源:08AI导航网发布时间:2025-04-10 16:21:21
Dolphin是一款由海天瑞声与清华大学电子工程系语音与音频技术实验室联合开发的专为东方语言设计的自动语音识别模型。Dolphin支持40种东方语言和22种中国方言。具有高准确率和强鲁棒性,能够适应多种复杂语音环境。Dolphin广泛应用于语音转文字、语音交互和语音内容分析等场景,支持一键安装和多种调用方式。
多语种支持:Dolphin 支持 40 种东方语言,包括东亚、南亚、东南亚和中东地区的语言,还支持 22 种中国方言(含普通话)。
语言自适应:自动识别输入语音的语言种类,无需手动指定。
高准确率:在多个测试集上,词错误率(WER)显著低于同类模型。
强鲁棒性:适应不同口音、语速、背景噪声等复杂语音环境。
高性能表现:在海天瑞声、Fleurs、CommonVoice 三个测试集下,与 Whisper 同等尺寸模型相比,Dolphin 的词错误率(WER)显著降低。例如,base 版本平均 WER 降低 63.1%,small 版本平均 WER 降低 68.2%。
开源性:Dolphin 的 base 和 small 版本模型与推理代码已全面开源。
网络结构:基于 CTC-Attention 架构,采用 E-Branchformer 编码器和 Transformer 解码器,并引入了 4 倍下采样层。这种结构结合了 CTC 的序列建模能力和注意力机制的上下文捕捉能力,能够有效提升模型的识别准确性和效率。
多任务格式:Dolphin 借鉴了 Whisper 和 OWSM 的设计方法,专注于 ASR 进行了若干关键修改,如去掉 previous text 及其相关标记的使用,简化了输入格式。此外,Dolphin 引入了两级语种标签系统,以更好地处理语言和地区的多样性。
Dolphin 的训练数据集整合了海天瑞声的专有数据和多个开源数据集,总时长超过 21.2 万小时。其中,海天瑞声数据集包含 137,712 小时的音频,覆盖 38 个东方语种。
语音转文字:适用于会议记录、语音输入法等场景。
语音交互:用于ai智能语音助手、智能家居等,提升交互体验。
语音内容分析:快速转写和分析语音媒体内容。
安装:用户可以通过命令 pip install -U dataoceanai-dolphin 一键安装。
命令行调用:例如,使用 dolphin audio.wav 进行语音识别,还可以指定模型版本、语言和地区的标签。
Python 调用:通过导入 dolphin 模块,加载音频和模型,即可进行语音识别。
Github地址:https://github.com/DataoceanAI/Dolphin
项目主页:https://huggingface.co/DataoceanAI
相关攻略 更多
最新资讯 更多
AI眼镜 “百镜大战” 打响!小小米眼镜官方微博上线引发市场热潮,产业链有望迎来快速发展期
更新时间:2025-04-19
新春第一课!自治区科协举办人工智能科普报告会
更新时间:2025-04-19
加速人工智能赛道布局!东莞市政府高规格召开新春第一场新闻发布会
更新时间:2025-04-19
东莞2025年“一号文”发布 聚焦“人工智能+先进制造”
更新时间:2025-04-19
马斯克:无人机和人工智能将主导未来战争 美国要加大投资
更新时间:2025-04-19
法国印度将联合主持AI行动峰会
更新时间:2025-04-19
法印将联合主持AI行动峰会,法媒:法欧希望借此峰会确立自身竞争地位
更新时间:2025-04-18
OpenAI前高管创立的AI公司据称洽谈融资 估值或达200亿美元
更新时间:2025-04-18
谷歌放弃 “不开发武器 AI” 承诺引争议,吴恩达表态支持
更新时间:2025-04-18
外交部:欢迎各国来华出席2025世界人工智能大会
更新时间:2025-04-18