当前位置:首页 > AI技术 > 正文内容

前端开发高级应用:骡子快跑支持语音输入吗 骡子快跑语音交互开启方法实战案例|Duuu笔记

admin3周前 (03-27)AI技术24

需启用语音权限、配置Agent语音能力或选择实时语音陪练Agent;具体包括开启内置语音模块、授权浏览器麦克风/扬声器权限、启动全双工语音通道并完成校准。

如果您在使用

骡子快跑

时希望直接通过语音表达指令或参与对话,但界面未自动响应语音输入,则可能是语音权限未启用、agent未配置语音能力或当前运行环境不支持实时音频流。以下是开启骡子快跑语音交互的多种方法:

一、启用Agent内置语音模块

该方法适用于所有标有「语音+」标识的Agent(如“校对骡(语音版)”“翻译骡(实时听译)”),其底层已集成Web Speech API与MuleRun自研语音编解码器,无需额外插件即可实现端到端低延迟语音识别与合成。

1、登录骡子快跑官网或打开App,进入「我的Agent」页面。

2、在Agent卡片右上角查找带有声波图标的「语音就绪」标签,若图标为灰色,说明该Agent尚未加载语音能力。

3、点击该Agent卡片,进入详情页后,点击右上角齿轮图标打开「能力配置」。

4、在「输入方式」区域勾选

启用语音输入

启用语音输出

两项开关。

5、点击「保存并重启Agent」,系统将自动加载语音模型,耗时约3–5秒,完成后声波图标变为绿色脉动状态。

二、授权浏览器麦克风与扬声器权限

骡子快跑语音功能依赖浏览器原生媒体设备访问能力,若权限被系统或浏览器策略拦截,语音按钮将不可用或点击无响应。需手动确认并授予持续访问权限,避免每次会话重复弹窗。

1、在Chrome、Edge或新版Safari中打开骡子快跑官网。

2、点击地址栏左侧的锁形图标,选择「网站设置」。

3、在「权限」列表中找到

麦克风

声音

两项,将其设为「允许」。

4、返回页面,刷新后点击任意Agent界面上的麦克风图标,若出现实时音量波动条,则表示授权成功。

5、如使用移动端Safari,需前往「设置→Safari→网站设置→麦克风」,单独为

mulerun

.ai域名开启权限。

三、启动实时语音陪练Agent并激活语音通道

此方法专为口语训练场景设计,调用MuleRun平台内建的双模态语音理解与生成Agent,支持连续语音流输入、语调建模与即时反馈,是唯一支持自然停顿与多轮追问的语音交互路径。

光子AI

AI电商服饰商拍平台

下载

1、在「我的Agent」页面搜索栏输入

实时语音+纠错

,定位对应Agent卡片。

2、点击「立即租用」并完成积分扣减,租用成功后该Agent即绑定您的语音设备偏好。

3、进入运行界面,点击中央麦克风图标旁的

语音通道切换

按钮,选择「全双工模式」以启用边说边听能力。

4、系统自动检测设备延迟并进行回声消除校准,校准完成后界面底部显示

语音链路已就绪(RTT

5、开始说话,Agent将在0.6秒内启动识别,并同步播放合成语音反馈,无需等待单句结束。

四、通过快捷键触发语音输入浮层

该方法绕过图形界面操作,适用于键盘优先用户或屏幕阅读器辅助场景,利用预设快捷键快速唤起语音输入浮层,兼容无障碍标准,且不依赖鼠标悬停或图标点击。

1、确保当前焦点位于骡子快跑任一可输入区域(如指令框、对话气泡编辑区)。

2、按下组合键

Ctrl + Shift + V

(Windows/Linux)或

Cmd + Shift + V

(macOS)。

3、页面右下角弹出半透明语音浮层,显示实时波形与当前语音状态(静音/监听/处理中)。

4、点击浮层中的圆形录音按钮,或直接开始讲话,系统将自动在语音停顿时触发识别。

5、识别结果以文本形式插入当前光标位置,同时保留原始语音片段供后续回放比对。

相关文章

【大模型应用开发

二、大模型的泛化与微调 模型的泛化能力:是指一个模型在面对新的、未见过的数据时,能够正确理解和预测这些数据的能力。在机器学习和人工智能领域,模型的泛化能力是评估模型性能的重要指标之一。...

LLM介绍

。LLM 被证明在使用指令形式化描述的未见过的任务上表现良好。这意味着 LLM 能够根据任务指令执行任务,而无需事先见过具体示例,展示了其强大的泛化能力。 :小型语言模型通常难以解决涉...

几种主要的神经网络

卷积神经网络的输入为二维的像素整阵列,输出为这个图片的属性,当网络训练学习后,所输入的图片或许经过稍微的变换,但卷积神经网络还是可以通过识别图片局部的特征而将整个图片识别出来。 :该层...

深入理解优化:如何利用 Gemini 3.1 的阶梯计费策略?企业级大规模调用实务完全指南|Duuu笔记

需深入理解Gemini 3.1阶梯计费与调用联动关系,通过识别阶梯区间、请求级Token预估截断、多模型路由调度、响应缓存去重、项目拆分配额绑定五种路径优化成本。 ☞☞☞AI 智能聊天, 问答助手,...

深入理解AI:WorkBuddy 怎么做组织架构图 WorkBuddy 组织架构图生成教程【实战】完全指南|Duuu笔记

WorkBuddy可通过四种方式生成组织架构图:一、用自然语言指令触发AI自动解析并渲染Mermaid图表;二、上传Excel结构化数据映射字段后批量构建动态树状图;三、启用OpenClaw技能包对接...

深入理解前端开发:零基础教程:怎么用 Gemini 自动生成短视频脚本与拍摄大纲完全指南|Duuu笔记

需明确输入指令、理解输出逻辑并合理拆解内容:一、构建含角色/任务/格式等要素的提示词;二、追加分镜与时间轴约束优化专业性;三、转译为带道具编号与颜色标记的执行清单;四、用Gemini校验注意力断点并迭...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。