分享

OpenAI的Whisper API:让语音转录变得简单

本帖最后由 pig2 于 2023-6-5 04:32 编辑


本文将介绍如何使用 OpenAI 的 Whisper API 将音频转录为文本。它还将向你展示如何在自己的项目中使用它以及如何将它集成到您​​的数据科学项目中。


1.png

是不是积累了很多录音,却没有精力开始聆听和转录?当我还是个学生的时候,我记得我每天都要为听课和录音课而苦苦挣扎,而且我的大部分时间都花在了转录上。此外,它不是我的母语,我不得不将每个句子拖到谷歌翻译中以将其转换为意大利语。

现在,人工转录和翻译只是一种记忆。著名的 ChatGPT 研究公司 OpenAI 推出了用于语音到文本对话的 Whisper API!只需几行 Python 代码,您就可以调用这个强大的语音识别模型,将思绪从脑海中抛开,专注于其他活动,例如在数据科学项目中进行实践和改进您的作品集。让我们开始吧!


Whisper是什么


Whisper 是 OpenAI 开发的一种基于神经网络的模型,用于解决语音转文本任务。它属于 GPT-3 系列,因其能够以极高的准确度将音频转录为文本而广受欢迎。

它不局限于处理英语,但它的能力扩展到 50 多种语言。如果您有兴趣了解您的语言是否包含在内,请在此处查看。此外,它可以将任何语言的音频翻译成英语。

与其他 OpenAI 产品一样,有一个 API 可以访问这些语音识别服务,允许开发人员和数据科学家将 Whisper 集成到他们的平台和应用程序中。


如何访问 Whisper API?



1.gif

在继续之前,需要执行几个步骤才能访问 Whisper API。首先,登录OpenAI API 网站。如果还没有帐户,则需要创建它。输入后,单击用户名,然后按“查看 API 密钥”选项。然后,单击“创建新的 API 密钥”按钮并将新创建的 API 密钥复制到您的 Python 代码中。


使用 Whisper API 转录



首先,让我们下载一段 Kevin Stratvert 的 youtube 视频,Kevin Stratvert 是一位非常受欢迎的 YouTuber,通过 Power BI、视频编辑和 AI 产品等学习工具帮助来自世界各地的学生掌握技术和提高技能。例如,假设我们想要转录视频“3 Mind-blowing AI Tools”。

我们可以使用 pytube 库直接下载此视频。要安装它,需要以下命令行:

  1. pip install pytube3
  2. pip install openai
复制代码
我们还安装了 openai 库,因为本教程后面会用到它。一旦安装了所有 python 库,我们只需要将视频的 URL 传递给 Youtube 对象。之后,我们获得最高分辨率的视频流,然后下载视频。
  1. from pytube import YouTube
  2. video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert"
  3. yt = YouTube(video_url)
  4. stream = yt.streams.get_highest_resolution()
  5. stream.download()
复制代码
下载文件后,就该开始有趣的部分了!
  1. import openai
  2. API_KEY = 'your_api_key'
  3. model_id = 'whisper-1'
  4. language = "en"
  5. audio_file_path = 'audio/5_tools_audio.mp4'
  6. audio_file = open(audio_file_path, 'rb')
复制代码
设置参数并打开音频文件后,我们可以将音频转录并保存为 Txt 文件。
  1. response = openai.Audio.transcribe(
  2.     api_key=API_KEY,
  3.     model=model_id,
  4.     file=audio_file,
  5.     language='en'
  6. )
  7. transcription_text = response.text
  8. print(transcription_text)
复制代码
输出:
  1. Hi everyone, Kevin here. Today, we're going to look at five different tools that leverage artificial intelligence in some truly incredible ways. Here for instance, I can change my voice in real time. I can also highlight an area of a photo and I can make that just automatically disappear. Uh, where'd my son go? I can also give the computer instructions, like, I don't know, write a song for the Kevin cookie company....
复制代码
正如预期的那样,输出非常准确。连标点符号都这么精确,我很佩服!






使用 Whisper API 进行翻译


这一次,我们会将音频从意大利语翻译成英语。和以前一样,我们下载音频文件。在我的例子中,我使用的是一个流行的意大利 YouTuber Piero Savastano 的 YouTube 视频,它以一种非常简单和有趣的方式教授机器学习。你只需要复制以前的代码并仅更改 URL。下载后,我们像以前一样打开音频文件:

  1. audio_file_path = 'audio/ml_in_python.mp4'
  2. audio_file = open(audio_file_path, 'rb')
复制代码
然后,我们可以从意大利语开始生成英语翻译。
  1. response = openai.Audio.translate(
  2.     api_key=API_KEY,
  3.     model=model_id,
  4.     file=audio_file
  5. )
  6. translation_text = response.text
  7. print(translation_text)
复制代码
输出:
  1. We also see some graphs in a statistical style, so we should also understand how to read them. One is the box plot, which allows to see the distribution in terms of median, first quarter and third quarter. Now I'm going to tell you what it means. We always take the data from the data frame. X is the season. On Y we put the count of the bikes that are rented. And then I want to distinguish these box plots based on whether it is a holiday day or not. This graph comes out. How do you read this? Here on the X there is the season, coded in numerical terms. In blue we have the non-holiday days, in orange the holidays. And here is the count of the bikes. What are these rectangles? Take this box here. I'm turning it around with the mouse....
复制代码

最后的想法


就是这样!我希望本教程能帮助您开始使用 Whisper API。在本案例研究中,它适用于 youtube 视频,但也可以尝试播客、缩放电话和会议。我发现转录和翻译后获得的输出非常令人印象深刻!这个人工智能工具现在肯定能帮助很多人。唯一的限制是它只能翻译成英文文本,反之亦然,但我相信 OpenAI 很快就会提供它。谢谢阅读!祝你今天过得愉快!




相关资源:


-----------我的底线--------------
中文版ChatGPT
https://xing.aboutyun.com/

加微信赠送Chat GPT教程:
一份超值的教程,让你成为职场“大佬”,轻松掌握ChatGPT技能
ChatGPT教程1:如何用ChatGPT自动化操作Excel,十倍提升你的工作效率
ChatGPT教程2:如何让ChatGPT帮你做专业又美观的PPT,人工智能神器ChatGPT高效办公系列2023最新教学
ChatGPT教程3:如何利用ChatGPT免费高效自学编程,再也不用担心学不会编程了!
ChatGPT教程4:2023普通人ChatGPT副业赚钱项目
ChatGPT教程5:ChatGPT全方位必修课 报告 论文
绘图教程6:AI绘图最新Midjourney v5.1 + Raw Mode
绘图教程7:深入实作教学 Midjourney niji journey ChatGPT v5
绘图教程8:最新Midjourney v5 + ChatGPT 咒语生成Prompt Generator



获取更多资源:
领取100本书+1T资源
http://www.aboutyun.com/forum.php?mod=viewthread&tid=26480

大数据5个项目视频
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25235

名企资源、名企面试题、最新BAT面试题、专题面试题等资源汇总
https://www.aboutyun.com/forum.php?mod=viewthread&tid=27732

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条