OpenWispr

2025-07-30AI音频 / 语音转文字1760 次浏览

综合介绍

OpenWispr是一款开源的桌面语音听写应用程序，它使用OpenAI的Whisper模型将语音实时转换为文本。该工具最核心的特点是跨平台（支持macOS、Windows和Linux）和隐私优先。用户可以选择两种AI处理模式：一种是完全在自己电脑上运行的本地模型，确保语音数据绝不离开个人设备，实现最高级别的隐私保护；另一种是使用OpenAI API进行云端处理，以获得更快的转录速度。该应用通过一个可自定义的全局快捷键激活，让你可以在任何应用程序中方便地进行语音输入。它还内置了独特的“代理命名”功能，让你可以像和AI助手对话一样下达指令，而不仅仅是简单的听写。所有的转录内容都会被安全地存储在本地的SQLite数据库中，方便随时查阅。

功能列表

双重AI处理模式：用户可以自由选择在本地通过Whisper模型处理语音（保护隐私），或使用自己的OpenAI API密钥进行云端处理（速度更快）。
跨平台支持：完美兼容macOS、Windows和Linux三大主流操作系统。
隐私优先设计：本地处理模式确保所有语音数据100%保留在用户设备上。API密钥等敏感信息会安全地存储在系统的凭证管理器中。
全局快捷键：提供一个可自定义的全局热键（默认为反引号`），让你可以在任何文本框、代码编辑器或聊天窗口中随时激活听写功能。
代理命名与AI指令：你可以为AI助手设定一个专属名称（如“贾维斯”）。通过呼叫它的名字，你可以下达“将这段话改写得更专业”或“格式化为要点列表”等指令，而不仅仅是做简单的文本转换。
自动粘贴与可拖动界面：转录完成的文本会自动粘贴到当前光标所在的位置，无需手动复制。听写时出现的小面板可以在屏幕上任意拖动，不干扰工作。
转录历史记录：所有语音转文本的结果都会自动保存在本地的SQLite数据库中，用户可以通过控制面板随时查看、复制或删除历史记录。
模型管理：在控制面板中，用户可以轻松下载和管理不同大小的本地Whisper模型（从tiny到large），以平衡速度和准确性。
自动安装助手：应用能够自动检测系统是否安装了Python，并在需要时引导用户完成安装，简化了本地处理环境的配置流程。

使用帮助

OpenWispr主要面向有一定技术基础、希望自由配置的用户和开发者。以下是标准的安装和使用流程。

先决条件

Node.js：需要18或更高版本。
Python：需要3.7或更高版本。如果你的系统中没有安装，应用在首次设置本地处理时会自动引导你完成安装。
操作系统：macOS 10.15+, Windows 10+, 或 Linux。

第一步：获取和安装

克隆源代码：打开你的终端（Terminal）或命令行工具，输入以下命令将项目代码下载到你的电脑上。
```
git clone https://github.com/HeroTools/open-wispr.git
```
进入项目目录：
```
cd open-wispr
```
安装依赖：运行以下命令来安装所有必需的程序包。
```
npm install
```

第二步：首次运行与配置

运行应用：
- 如果用于开发，想获得实时更新的体验，请运行：
```
npm run dev
```
- 如果想以生产模式运行，请使用：
```
npm start
```
设置向导：应用首次启动时，会引导你完成几个关键设置。
- 选择处理模式：
  - 本地处理：推荐给最看重隐私的用户。应用会引导你下载一个Whisper模型（建议从base模型开始）。
  - 云处理：需要你提供自己的OpenAI API密钥。你可以跳过此步，稍后在控制面板中设置。
- 授予权限：
  - 麦克风访问权限：必须允许，否则无法录制语音。
  - 辅助功能权限（主要在macOS上）：必须允许，应用才能将转录的文本自动粘贴到其他程序中。
- 为你的代理命名：这是特色功能。你需要给你的AI助手起一个名字，比如“助手”、“贾维斯”或任何你喜欢的名字。这个名字将用于区分普通听写和AI指令。
- 配置全局快捷键：默认是键盘左上角的反引号（`），你可以在此将其更改为任何你喜欢的按键组合。

第三步：日常使用

基础听写：
- 在任何你需要输入文字的地方（如Word文档、浏览器地址栏、代码编辑器），点击一下以确保光标处于激活状态。
- 按下你设定的全局快捷键，听写面板会出现录音动画，此时你就可以开始说话。
- 说完后，再次按下快捷键，面板会显示处理动画。
- 稍等片刻，整理好的文本就会自动出现在光标位置。
使用代理指令：
- 如果你想让AI处理你说的话，而不是简单转录，请使用“唤醒词+指令”的模式。
- 例如，先说：“这份报告的结论是项目进展顺利但需要更多预算。”
- 然后，你可以紧接着下达指令：“嘿，贾维斯，把这句话改得更正式一些。”
- AI会自动识别到你的指令，并输出一个更专业、更正式的句子，同时会隐去“嘿，贾维斯”这个唤醒词。
访问控制面板：
- 右键点击系统托盘中的OpenWispr图标，即可打开控制面板。
- 在控制面板里，你可以：
  - 切换本地或云处理模式。
  - 查看、复制和删除你的转录历史。
  - 下载或切换不同大小的本地模型。
  - 更改API密钥、全局快捷键等设置。

应用场景

开发者日常在编写代码时，开发者可以使用语音快速添加注释：“修复了用户登录时的空指针异常”。之后，他可以说：“嘿，助手，把刚才那句话格式化为JSDoc注释”，工具就会输出符合格式的注释块。
内容创作者作家或博主在构思初稿时，可以自由地口述想法，即使语言组织比较混乱。完成口述后，他们可以下达指令：“嘿，小智，总结以上内容，并分为三个要点”，快速将零散的思绪整理成结构化的草稿。
多语言工作者对于需要处理多种语言的用户，可以在配置文件中预设语言（支持58种语言），或利用自动检测功能。在与外国同事沟通时，可以直接用中文口述邮件草稿，然后说：“嘿，AI，把这个翻译成英文”，从而快速完成跨语言沟通。
会议记录与整理在参加线上会议时，可以实时将讨论内容转为文字。会议结束后，可以对记录进行处理：“嘿，助理，提取出所有的待办事项并列出来”，极大地提高了会议纪要的整理效率。

QA

OpenWispr真的完全免费吗？是的，OpenWispr本身是开源软件，遵循MIT许可证，你可以免费使用、修改和分发。但需要注意，如果你选择云处理模式，你需要支付自己OpenAI账户产生的API调用费用。使用本地处理模式则是完全免费的。
我的语音数据是否安全？非常安全。如果你使用本地处理模式，你的语音数据永远不会离开你的电脑，隐私得到100%的保障。如果你选择云处理，你的数据会被发送到OpenAI的服务器进行处理，你需要参考OpenAI的隐私政策。
这个工具支持哪些平台？OpenWispr是跨平台的，支持macOS（10.15及以上）、Windows（10及以上）和Linux。
如何更改激活听写的快捷键？你可以随时更改快捷键。右键单击系统托盘中的应用图标，打开控制面板，进入设置页面即可自定义你喜欢的全局快捷键。
它支持中文吗？支持多少种语言？是的，它完美支持中文。根据Whisper模型的能力，OpenWispr总共支持58种语言的转录，包括英语、西班牙语、法语、德语、日语等。