声网刘斌：RTE 演进助力 AI Agent 应用落地

- 编辑：admin - 2024-12-25 17:10

声网刘斌：RTE 演进助力 AI Agent 应用落地

12月11日，声网 COO 刘斌缺席由量子位举行的 MEET2025智能将来年夜会，并带来了主题报告，他分享了在及时多模态的趋向下，RTE 的演进怎样助力 AI Agent 利用落地，并以为 RTE 将成为天生式 AI 时期 AI 基本设备的要害局部。在 GenAI 时期，RTE 与 AI Agent 有什么关联?刘斌起首分享了两个变乱，其一，往年10月初，声网的兄弟公司 Agora 作为语音 API 配合者呈现在了 OpenAI 宣布的 Realtime API 公然测试版中。其二，10月尾的 RTE2024及时互联网年夜会中，声网也发布与 MiniMax 正在打磨海内首个 Realtime API。经由过程这两个变乱反应出当下年夜模子的交互正在走向及时多模态。及时音视频成为对话式 AI Agent 的要害一环刘斌以为，在多模态模子推出后，对话的方法与本来纯文本交互差别，会从异步变为及时双工交互，实现了很年夜的奔腾。但在终极利用落地的进程中，仍然存在良多客户痛点，比方在现实利用场景中，用户的装备平日无奈像宣布调演示的那样始终处于牢固收集与物理情况下，年夜局部Conversational AI Agent 的应用场景是随机的，也就是可能会发在 Anytime Anywhere，比方在开车送完孩子上学之后，这就对年夜模子及时语音对话中的低延时传输、收集优化等提出了磨练。个别来说，耽误在 1.7 秒内会让人感到天然，2 秒多、 3 秒则会让人感到卡顿、反映慢。其次在模子交互中是否支撑智能打断以及自动交互也是用户十分存眷的一个要害点。要做到这些，除了模子才能，在利用落处所面，须要端到真个才能支撑，不只须要成熟的 VAD 技巧来实现自在打断，更须要一整套的音频高等算法来支持实现优雅打断，从而实现用户休会最好的人模对话，固然也须要应答差别的物理情况、庞杂的收集情况、PC、手机以及各种 IoT 终端等。声网作为寰球及时互动云行业的首创者，在音视频范畴积聚了深沉的技巧上风与场景实际，经由过程将 RTE 与 GenAI 联合，推出了声网 Conversational AI Agents ，旨在辅助开辟者与企业处理 Agent 利用落地的一系列痛点，疾速构建适配本人营业场景的 AI 及时语音对话效劳。语音对话耽误低至500ms：针对年夜模子语音交互中广泛存在呼应时光长的痛点，声网自研的 SD-RTN™ 及时传输收集能够实现寰球范畴的低延时音视频传输，现在可做到语音对话耽误低至 500ms，并进一步经由过程更疾速的 LLM 推理首字耗时、低耽误流式 TTS、同机安排等一系列技巧手腕，保障对话的及时性与流利性，到达近似人与人之间一样平常对话停留与距离。支撑智能打断：开辟者在构建 AI 利用场景时，会将是否支撑随时打断也成为权衡年夜模子智能化的主要指标。声网自研的 AI VAD 技巧，顺应人类对话的停留、语气跟对话节拍，支撑 AI 对话进程中随时打断。同时，声网的处理计划还深度优化 AI 脚色，最年夜水平保存情感感情等要害信息，超拟人实在音色丰盛通话休会。支撑30000+挪动终端：在年夜模子的利用落地中，差别的终端装备、操纵体系等也会带来纷歧样的休会，声网的音视频 SDK 经由一直的迭代进级，能够支撑 30 多个平台框架、30000 多终端机型及种种操纵体系，包含各种 IoT 装备终端;当先的音频处置：在人与人音视频通话的进程中，情况乐音是常常遭受的一年夜痛点，影响相同效力。在 GenAI 场景中，情况乐音同样无奈防止。声网具有业界当先的音频3A才能，供给 AI 反响打消、AI 智能降噪、配景人声过滤、音乐检测/过滤、主讲人声纹锁定等自研音频技巧，即便在集市、地铁站等喧闹情况中，也能保障 AI 对话进程不受影响。机动可扩大的 AI Agent 架构：开辟者在构建 AI 利用时，每每会依据本身的爱好或许营业场景抉择差别的组件搭配 AI Agent。对此，声网的处理计划采取了机动可扩大的 AI Agent架构，兼容市场主流的 ASR、LLM 跟 TTS 技巧，并具有任务流编排才能，辅助开辟者与企业依据特定需要定制跟扩大 AI 驱动的及时互动休会。RTE 成为 GenAI 时期 AI Infra 的要害局部在与年夜模子厂商配合的进程中，声网也发明想要晋升年夜模子落地的适用性，现有 RTE 技巧栈跟基本设备仍有大批改良空间。刘斌表现，只有经由过程一直的演进，年夜模子才无机会在种种场景、状态下年夜范围参加到跟人的语音对话中，年夜模子也将基于云、装备端、边沿的多维度参加与合作。基于这些才能的改良跟遍及，将来 RTE 将成为 GenAI 时期 AI 基本设备(AI Infra)的要害局部。同时，Gen AI 也在驱动 RTE 及时互动的技巧变更与休会改革，在人与人的及时互动中，声网始终努力于实现从 QoS 效劳品质到 QoE 休会品质的技巧变更，在休会层面也从“听失掉“变为“听得清”。而在人与 AI 的及时互动中，为了进一步加强休会，RTE 的技巧变更也演化为 AI QoE 乃至多模态 AI QoE，这背地就包括了声网自研的 AI VAD 才能、降噪才能及收集优化等一系列技巧才能，以使得人与 AI 的对话更合乎现实情形，年夜模子也从懂得内容，酿成懂得对话人的心思、情感，终极懂得对话时的人类用意，最后实现从“听得懂“到“听「得心」”的休会改革。在 GenAI 时期，声网的产物系统也在一直增强，刘斌也进一步先容了声网的 AI RTE 产物矩阵，包含 Linux Sever SDK、AI VAD 才能、AI Agent Service 等都在做弥补与优化。最后刘斌还先容了声网 RTE + AI 才能全景图，包含 RTE+AI 生态才能、声网 AI Agent、Conversational AI Agents 处理计划等，片面的展示了声网对 RTE+AI 的团体思考，努力于成为 GenAI 时期 AI 基本设备的要害局部。　　申明：新浪网独家稿件，未经受权制止转载。 -->