Modulate推出Velma Transcribe，重塑语音转文本的成本与精度

(SeaPRwire) – 马萨诸塞州波士顿 – 2026年3月23日 – (SeaPRwire) – Modulate推出了一款新型语音转文本API，旨在重塑组织大规模处理和理解对话音频的方式。新发布的Velma Transcribe定位为经济高效、高性能的转录解决方案，旨在满足从客户服务到社交平台及AI驱动应用等各行业对实时语音数据分析日益增长的需求。

此次发布凸显了行业向提升语音智能基础设施可及性和经济可行性的更广泛转变。通过大幅降低转录的成本门槛，Modulate的最新产品使组织能够在更广泛的应用场景中扩展语音数据的使用，包括实时语音代理、分析管道和全球通信平台。

Velma Transcribe基于Modulate的集成聆听模型（ELM）构建，这是一种以研究为驱动的方法，通过协调多个专用转录模型来优化性能。与传统单模型系统相比，这种基于集成的架构提高了转录准确性、降低了延迟并增强了成本效率。该平台在Earnings-22和AMI会议语料库等广泛认可的基准测试中表现出色，尤其在处理复杂多说话人对话场景时。

公司高管强调，该解决方案超越了传统转录功能。尽管许多系统仅专注于将语音转换为文本，但Velma Transcribe整合了更深入的上下文理解，支持更广泛的对话洞察。同时，该API设计为对需要快速、可靠转录且无需额外分析负担的开发者保持易访问性。

除转录功能外，该平台还集成了一系列企业级功能，包括覆盖20多个类别的情感检测、支持20多种变体的口音识别，以及涵盖70多种语言的多语言支持。它还包含说话人分离、个人身份信息（PII）检测与脱敏，以及实时应用的实时流支持等高级功能。

Velma Transcribe最值得关注的方面之一是其定价模式。转录成本降至每小时音频约0.03美元，与当前市场费率相比显著降低。这种定价结构使企业能够更经济地处理大量语音数据，为数据驱动决策和货币化策略开辟了新机遇。

该系统经过优化，可在真实对话环境中可靠运行——这类环境中，重叠语音、打断、多样口音和背景噪音常对传统转录工具构成挑战。基准测试结果显示，与多个成熟解决方案相比，Velma Transcribe大幅降低了错误率，强化了其适用于企业级部署的特性。

为支持生产级应用，该平台包含批量和流式转录端点、带时间戳的结构化输出、实时用例的亚秒级延迟，以及旨在增强隐私和合规性的零数据保留策略。依托通过ISO 27001认证的安全实践，这些功能使该解决方案能够在受监管和数据敏感的环境中安全部署。

Velma Transcribe是Modulate更广泛的Velma 2.0语音智能模型套件的一部分，该套件旨在为AI系统提供更先进的“聆听层”。这种方法使组织能够超越简单转录，实现更深入的对话理解，支持欺诈检测、情感分析、合规监控和实时运营洞察等用例。

该解决方案现已推出，采用基于使用量的定价模式，可同时满足小规模部署和高容量企业工作负载需求。

关于Modulate
Modulate是一家语音智能技术公司，专注于开发AI模型和API，助力企业和开发者可扩展地理解真实对话音频。其解决方案结合语音识别、声学分析和上下文处理，为企业和开发者提供准确、可解释且经济高效的语音智能。

本文由第三方内容提供商提供。SeaPRwire (https://www.seaprwire.com/)对此不作任何保证或陈述。

分类: 头条新闻,日常新闻

SeaPRwire为公司和机构提供全球新闻稿发布，覆盖超过6,500个媒体库、86,000名编辑和记者，以及350万以上终端桌面和手机App。SeaPRwire支持英、日、德、韩、法、俄、印尼、马来、越南、中文等多种语言新闻稿发布。

Modulate推出Velma Transcribe，重塑语音转文本的成本与精度

Menu

Latest Stories

Links