OpenWispr
综合介绍
OpenWispr是一款开源的桌面语音听写应用程序,它使用OpenAI的Whisper模型将语音实时转换为文本。该工具最核心的特点是跨平台(支持macOS、Windows和Linux)和隐私优先。用户可以选择两种AI处理模式:一种是完全在自己电脑上运行的本地模型,确保语音数据绝不离开个人设备,实现最高级别的隐私保护;另一种是使用OpenAI API进行云端处理,以获得更快的转录速度。该应用通过一个可自定义的全局快捷键激活,让你可以在任何应用程序中方便地进行语音输入。它还内置了独特的“代理命名”功能,让你可以像和AI助手对话一样下达指令,而不仅仅是简单的听写。所有的转录内容都会被安全地存储在本地的SQLite数据库中,方便随时查阅。
功能列表
- 双重AI处理模式:用户可以自由选择在本地通过Whisper模型处理语音(保护隐私),或使用自己的OpenAI API密钥进行云端处理(速度更快)。
- 跨平台支持:完美兼容macOS、Windows和Linux三大主流操作系统。
- 隐私优先设计:本地处理模式确保所有语音数据100%保留在用户设备上。API密钥等敏感信息会安全地存储在系统的凭证管理器中。
- 全局快捷键:提供一个可自定义的全局热键(默认为反引号`),让你可以在任何文本框、代码编辑器或聊天窗口中随时激活听写功能。
- 代理命名与AI指令:你可以为AI助手设定一个专属名称(如“贾维斯”)。通过呼叫它的名字,你可以下达“将这段话改写得更专业”或“格式化为要点列表”等指令,而不仅仅是做简单的文本转换。
- 自动粘贴与可拖动界面:转录完成的文本会自动粘贴到当前光标所在的位置,无需手动复制。听写时出现的小面板可以在屏幕上任意拖动,不干扰工作。
- 转录历史记录:所有语音转文本的结果都会自动保存在本地的SQLite数据库中,用户可以通过控制面板随时查看、复制或删除历史记录。
- 模型管理:在控制面板中,用户可以轻松下载和管理不同大小的本地Whisper模型(从
tiny
到large
),以平衡速度和准确性。 - 自动安装助手:应用能够自动检测系统是否安装了Python,并在需要时引导用户完成安装,简化了本地处理环境的配置流程。
使用帮助
OpenWispr主要面向有一定技术基础、希望自由配置的用户和开发者。以下是标准的安装和使用流程。
先决条件
- Node.js:需要
18
或更高版本。 - Python:需要
3.7
或更高版本。如果你的系统中没有安装,应用在首次设置本地处理时会自动引导你完成安装。 - 操作系统:macOS 10.15+, Windows 10+, 或 Linux。
第一步:获取和安装
- 克隆源代码:打开你的终端(Terminal)或命令行工具,输入以下命令将项目代码下载到你的电脑上。
git clone https://github.com/HeroTools/open-wispr.git
- 进入项目目录:
cd open-wispr
- 安装依赖:运行以下命令来安装所有必需的程序包。
npm install
第二步:首次运行与配置
- 运行应用:
- 如果用于开发,想获得实时更新的体验,请运行:
npm run dev
- 如果想以生产模式运行,请使用:
npm start
- 如果用于开发,想获得实时更新的体验,请运行:
- 设置向导:应用首次启动时,会引导你完成几个关键设置。
- 选择处理模式:
- 本地处理:推荐给最看重隐私的用户。应用会引导你下载一个Whisper模型(建议从
base
模型开始)。 - 云处理:需要你提供自己的OpenAI API密钥。你可以跳过此步,稍后在控制面板中设置。
- 本地处理:推荐给最看重隐私的用户。应用会引导你下载一个Whisper模型(建议从
- 授予权限:
- 麦克风访问权限:必须允许,否则无法录制语音。
- 辅助功能权限(主要在macOS上):必须允许,应用才能将转录的文本自动粘贴到其他程序中。
- 为你的代理命名:这是特色功能。你需要给你的AI助手起一个名字,比如“助手”、“贾维斯”或任何你喜欢的名字。这个名字将用于区分普通听写和AI指令。
- 配置全局快捷键:默认是键盘左上角的反引号(`),你可以在此将其更改为任何你喜欢的按键组合。
- 选择处理模式:
第三步:日常使用
- 基础听写:
- 在任何你需要输入文字的地方(如Word文档、浏览器地址栏、代码编辑器),点击一下以确保光标处于激活状态。
- 按下你设定的全局快捷键,听写面板会出现录音动画,此时你就可以开始说话。
- 说完后,再次按下快捷键,面板会显示处理动画。
- 稍等片刻,整理好的文本就会自动出现在光标位置。
- 使用代理指令:
- 如果你想让AI处理你说的话,而不是简单转录,请使用“唤醒词+指令”的模式。
- 例如,先说:“这份报告的结论是项目进展顺利但需要更多预算。”
- 然后,你可以紧接着下达指令:“嘿,贾维斯,把这句话改得更正式一些。”
- AI会自动识别到你的指令,并输出一个更专业、更正式的句子,同时会隐去“嘿,贾维斯”这个唤醒词。
- 访问控制面板:
- 右键点击系统托盘中的OpenWispr图标,即可打开控制面板。
- 在控制面板里,你可以:
- 切换本地或云处理模式。
- 查看、复制和删除你的转录历史。
- 下载或切换不同大小的本地模型。
- 更改API密钥、全局快捷键等设置。
应用场景
- 开发者日常在编写代码时,开发者可以使用语音快速添加注释:“修复了用户登录时的空指针异常”。之后,他可以说:“嘿,助手,把刚才那句话格式化为JSDoc注释”,工具就会输出符合格式的注释块。
- 内容创作者作家或博主在构思初稿时,可以自由地口述想法,即使语言组织比较混乱。完成口述后,他们可以下达指令:“嘿,小智,总结以上内容,并分为三个要点”,快速将零散的思绪整理成结构化的草稿。
- 多语言工作者对于需要处理多种语言的用户,可以在配置文件中预设语言(支持58种语言),或利用自动检测功能。在与外国同事沟通时,可以直接用中文口述邮件草稿,然后说:“嘿,AI,把这个翻译成英文”,从而快速完成跨语言沟通。
- 会议记录与整理在参加线上会议时,可以实时将讨论内容转为文字。会议结束后,可以对记录进行处理:“嘿,助理,提取出所有的待办事项并列出来”,极大地提高了会议纪要的整理效率。
QA
- OpenWispr真的完全免费吗?是的,OpenWispr本身是开源软件,遵循MIT许可证,你可以免费使用、修改和分发。但需要注意,如果你选择云处理模式,你需要支付自己OpenAI账户产生的API调用费用。使用本地处理模式则是完全免费的。
- 我的语音数据是否安全?非常安全。如果你使用本地处理模式,你的语音数据永远不会离开你的电脑,隐私得到100%的保障。如果你选择云处理,你的数据会被发送到OpenAI的服务器进行处理,你需要参考OpenAI的隐私政策。
- 这个工具支持哪些平台?OpenWispr是跨平台的,支持macOS(10.15及以上)、Windows(10及以上)和Linux。
- 如何更改激活听写的快捷键?你可以随时更改快捷键。右键单击系统托盘中的应用图标,打开控制面板,进入设置页面即可自定义你喜欢的全局快捷键。
- 它支持中文吗?支持多少种语言?是的,它完美支持中文。根据Whisper模型的能力,OpenWispr总共支持58种语言的转录,包括英语、西班牙语、法语、德语、日语等。