WangDefou

WangDefou

用时5天!非计算机专业的我开发上线了一款音视频转文字工具

2024 / 11 / 3

说起来我自己都不相信,我一个非计算机专业的文科生,有一天居然可以靠着Claude开发上线一款音视频转文字工具。

快速体验入口:音频转录工具 ,注册即送1小时转录时长。

为什么要开发这么一款小工具?

其实这个需求最初源自于罗斯小姐,因为工作原因她经常需要将会议录音、访谈录音转写成文字,整理成会议纪要和新闻稿。为了提高工作效率,她用过讯飞语音,也用过WPS的转写功能,但是觉得这些工具都不太好用,转写准确率比较低。

前言

最开始我让ChatGPT帮我写了一个Python脚本,来帮她解决的这个问题。

原理也很简单,就是调用了一下Azure OpenAI 的 Whisper 模型接口来进行音频转文字。

为了让罗斯小姐用起来简单一点,我还用Python的tkinter库做了GUI界面,这样一运行这个Python代码,就可以有一个界面来操作。只需要选择文件或文件夹,然后再选择输出文件夹,最后点击开始转换,然后等待一会儿就转写好了。

为了运行这个Python代码,我还在她的电脑上安装了Visual Studio Code,然后还陪专门配置好环境,提前安装好好这个脚本需要用到的Python库。等需要转写音频的时候,只需要点击运行脚本,就可以选择文件进行转写了。

但是罗斯小姐还是觉得很麻烦,使用的时候总是出各种奇奇怪怪的问题。

她就跟我说,能不能搞一个网页,在网页上就能转写,傻瓜式操作的那种。

于是我就用Claude开始了第一次探索……

第一次探索

通过对话把我的需求写给Claude,让它给我出技术方案并且提供代码,

然后反复在本地调试,修改页面上的内容,测试使用流程。摸着石头过河,顺便还做了一个小优化。

调用gpt-4o,通过一小段提示词,把Whisper转写后的文字加上标点符号,并且做一个简单的排版,最终存储在一个txt文件里。

本地调试完毕之后,又让Claude教我如何把本地的服务部署到VPS服务上面,又是一顿折腾终于也算是上线了。

这时候罗斯小姐又有了新需求,这个工具是不是可以拿来卖钱呀?你研究研究呗。

于是我就又开始了第二次探索……

第二次探索

这次我没有在第一次的版本上修改,因为我确实也看不懂react代码和Python代码,实在也改不动。于是索性重新整理了一下需求,换了一个实现方式,前端是用Vue写,后端依旧是用Python服务。

有了第一次的探索经验,第二次探索起来还是各种踩坑,走了很多弯路,推翻重来了好几次。好在我心态好,最终还是被我搞出来了。

相比第一个版本,第二个版本多了很多功能:

  1. 新增了注册登录功能,注册后才能使用

  2. 新增了数据库,引入了管理员、普通用户的用户体系

  3. 除了支持音频转文字,还支持了视频转文字

  4. 新增了付费功能,按照每分钟0.16元价格来计价(虽然只能管理员手动充值)

  5. 新增了预览和下载功能

虽然还有一些小bug,但是我已经很满意了。

从罗斯小姐给我提需求,想让我搞一个网页给她用,到现在迭代出第2版并且顺利上线,断断续续只用了5天时间,这对于我来说是一件极具成就感的事情。

后续的计划

我计划把整个开发过程详细地梳理并记录下来,供其他非计算机专业的文科生共勉。在人工智能快速发展的时代,只要肯研究,谁都可以做出自己的小应用,哪怕是只能解决一小部分用户的需求,那也足够了。

第2版的部署流程已经基本整理完成,完整的开发过程还在整理,整理好之后会开源出来。