聚观早报｜字节开展类ChatGPT研究；特斯拉前AI负责人加入OpenAI

开源语音ai open ai 中文语音识别

开源语音转文字,开源语音聊天,开源语音助手,开源语音识别库

前任特斯拉人工智能总监Andrej Karpathy甚至转发评论：OpenAI正处于最好的状态中。

话不多说，让我们看看这个被“好评如潮”的语音系统究竟是怎么回事。

逼近人类水平的语音识别系统

首先，Whisper最大特点是它使用的 超大规模训练集：

它使用从网络上收集的 68万小时的多语言、多任务监督数据进行训练。

这导致数据集的内容非常多元化，涵盖了许多不同环境、不同录音设备下、不同语言的音频。

其中，非英语部分共包含 98种不同语言。

不过，虽然音频质量的多样性可以帮助提高训练模型的鲁棒性，但转录文本质量的多样性并不是同样有益的。

而以往的研究表明，在人工和机器混合生成的数据集上进行训练，会显著损害翻译系统的性能。

但值得一提的是，没有说话内容的片段会被留下，作为语音活动检测的训练数据。

其次，Whisper体系结构是一种简单的端到端方法，具体来说就是Transformer的编码器-解码器格式。

输入音频被分成30秒的片段，再转换成log-Mel谱图，然后传入编码器。

除此之外，研究人员还为Whisper设置了 5种不同的型号，以下是各模型大致的内存需求和相对速度，使用者可以自行选择。

但需要注意的是，只有“large”型号支持多语言，前4个模型都只支持英语。

实验结果证明，Whisper在Librispeech test-clean测试的错误率达到2.7%。

虽然这一数值与Wav2vec 2.0一样，但在零样本性能上，Whisper明显更稳健， 平均误差减少了55%。

甚至零样本Whisper模型还 缩小了与人类鲁棒性之间的差距。

可以看出，与人类Alec相比，LibriSpeech模型的错误率大约是人类的两倍，而Whisper模型的鲁棒性边界则包括Alec95%的置信区间。

研究团队

Whisper的研究团队来自OpenAI，共同一作有两位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI的机器学习研究员，也是indico.io的联合创始人。

Jong Wook Kim，在纽约大学获得了音乐技术专业的博士学位，研究方向包括多模态深度学习和音乐理解，目前是OpenAI的研究人员。

他们希望Whisper的高精度和易用性，将允许开发人员将语音接口添加到更广泛的应用程序中。

论文和GitHub链接附在文末，感兴趣的小伙伴们可以自取～

论文链接：

https://cdn.openai.com/papers/whisper.pdf

GitHub链接：

https://github.com/openai/whisper#approach

― 完 ―

量子位 QbitAI ・头条号签约

关注我们，第一时间获知前沿科技动态

nlp自然语言面试题自然语言处理nlp从入门到精通

nlp自然语言处理考研,nlp自然语言处理就业前景,nlp自然语言处理中国公司排名,nlp自然语言处理入门

篇幅有限，本文不会把每一题的参考答案都加载出来，会摘出一些摘要，完整解析见题库！添加老师微信：julyedukefu14，回复 ” 6 “ ，领取最新升级版《名企AI面试100题》电子书！

1、了解Google最新的模型bert么？

Google AI Language 发布了论文BERT: Pre-training of Deep Bidirectional Transformers for

Language Understanding，提出的 BERT 模型在 11 个 NLP 任务上的表现刷新了记录，包括问答 Question Answering (SQuAD v1.1)，推理 Natural Language Inference (MNLI) 等：

GLUE ：General Language Understanding Evaluation

MNLI ：Multi-Genre Natural Language Inference

SQuAD v1.1 ：The Standford Question Answering Dataset

QQP ： Quora Question Pairs

QNLI ： Question Natural Language Inference

SST-2 ：The Stanford Sentiment Treebank

CoLA ：The Corpus of Linguistic Acceptability

STS-B ：The Semantic Textual Similarity Benchmark

MRPC ：Microsoft Research Paraphrase Corpus

RTE ：Recognizing Textual Entailment

WNLI ：Winograd NLI

SWAG ：The Situations With Adversarial Generations

让我们先来看一下 BERT 在 Stanford Question Answering Dataset (SQuAD) 上面的排行榜吧：

BERT 可以用来干什么？

BERT 可以用于问答系统，情感分析，垃圾邮件过滤，命名实体识别，文档聚类等任务中，作为这些任务的基础设施即语言模型，

BERT 的代码也已经开源：

google-research/bert

我们可以对其进行微调，将它应用于我们的目标任务中，BERT 的微调训练也是快而且简单的。

例如在 NER 问题上，BERT 语言模型已经经过 100 多种语言的预训练，这个是 top 100 语言的列表：

google-research/bert

只要在这 100 种语言中，如果有 NER 数据，就可以很快地训练 NER。

2、了解文本嵌入么？

什么是NLP？

自然语言处理（NLP）是计算机科学，人工智能和语言学的交叉领域。目标是让计算机处理或“理解”自然语言，以执行语言翻译和问题回答等任务。

随着语音接口和聊天机器人的兴起，NLP正在成为信息时代最重要的技术之一，同时它也是人工智能的关键部分。充分理解和表达语言的含义是一个非常困难的目标。为什么？因为人类的语言很特别。

人类语言有什么特别之处？

1.人类语言是专门为传达说话人的意图而构建的系统。这不仅仅是一个环境信号，更是一个有意识的交流。

2.人类语言大多是离散/符号的/分类的信号系统，大概是因为信号可靠性更高。

3.一种语言的分类符号可以用几种方式编码为通信信号：声音，手势，写作，图像等。人类语言只是其中的一种。

4.人类语言是不明确的（与编程和其他正式语言不同）。因此，在表达、学习和使用语言/情境/情境/文字/视觉知识对人类语言方面存在高度复杂性。

NLP应用到哪里？

从NLP研究领域衍生出了一批快速增长的应用程序。以下是其中几个：

1.拼写检查，关键字搜索，查找同义词；

2.从网站提取信息，例如：产品价格，日期，地点，人员或公司名称；

3.分类：长文档的积极/消极情绪；

4.机器翻译；

5.口语对话系统；

6.复杂的问答系统；

篇幅有限，本文不会把每一题的参考答案都加载出来，会摘出一些摘要，完整解析见题库！

添加老师微信：julyedukefu14，回复 ” 6 “ ，领取最新升级版《名企AI面试100题》电子书！

3、了解机器翻译中的NLP技术么？

机器翻译是语言理解的经典测试。它由语言分析和语言生成组成。大型机器翻译系统具有巨大的商业用途，给你一些值得注意的例子：

・谷歌翻译每天翻译1000亿字；

・Facebook使用机器翻译自动翻译帖子和评论中的文字，以打破语言障碍，让世界各地的人们相互交流；

・阿里巴巴使用机器翻译技术来实现跨境贸易，连接世界各地的买家和卖家；

・微软为Android、iOS和Amazon Fire上的最终用户和开发人员提供基于人工智能的翻译，无论他们是否可以访问互联网。

在传统的机器翻译系统中，我们必须使用平行语料库：一组文本，每个文本都被翻译成一种或多种不同于原文的其他语言。

例如，给定源语言f（例如法语）和目标语言e（例如英语），我们需要建立多个统计模型，包括使用贝叶斯规则的概率公式，训练的翻译模型p（f | e）平行语料库和语言模型p（e）在纯英文语料库上训练。这种方法跳过了数百个重要细节，需要大量的手工特征工程，整体而言它是一个非常复杂的系统。

神经机器翻译是通过一个称为递归神经网络（RNN）的大型人工神经网络对整个过程进行建模的方法。RNN是一个有状态的神经网络，它通过时间连接过去。神经元的信息不仅来自前一层，而且来自更前一层的信息。

标准的神经机器翻译是一种端到端神经网络，其中，源语句由称为编码器的RNN 编码，目标词使用另一个称为解码器。RNN编码器一次读取一个源语句，然后在最后隐藏状态汇总整个源句子。RNN解码器使用反向传播学习这个汇总并返回翻译后的版本。

4、了解情感分析中的NLP技术么？

人际交往不仅仅是文字和其明确的含义，而且它还是微妙且复杂的。即使在完全基于文本的对话中，你也可以根据单词选择和标点符号判断客户是否感到愤怒。你可以阅读产品在天猫平台的评论，并了解评论者是否喜欢或不喜欢它，即使他们从未直接说过。

为了使计算机真正理解人类每天的交流方式，他们需要理解的不仅仅是客观意义上的词语定义、而且他们需要了解我们的情绪。

情绪分析是通过较小元素的语义组成来解释较大文本单元（实体、描述性术语、事实、论据、故事）的含义的过程。

传统情感分析的方法是将句子视为一个词袋，并查阅“积极”和“消极”单词的策划列表，以确定该句子的情绪。这需要手工设计的特征来捕捉情绪，所有这是非常耗时和不可扩展的。

用于情感分析的现代深度学习方法可用于形态学、语法和逻辑语义，其中最有效的是递归神经网络。顾名思义，递归神经网络开发的主要假设递归是描述语言的自然方式。递归在消歧方面很有用，有助于某些任务引用特定的短语，并且对于使用语法树结构的任务非常有效。

递归神经网络非常适合具有嵌套层次结构和内部递归结构的设置。语法的句法规则是高度递归的，因此，我们利用递归神经网络！

5、了解问答系统中涉及的NLP技术么？

问答（QA）系统的想法是直接从文档、对话、在线搜索和其他地方提取信息，以满足用户的信息需求。QA系统不是让用户阅读整个文档，而是更喜欢简短而简洁的答案。如今，QA系统可以非常容易地与其他NLP系统结合使用，并且一些QA系统甚至超越了对文本文档的搜索，并且可以从图片集合中提取信息。

事实上，大多数NLP问题都可以被视为一个问题回答问题。范例很简单：我们发出查询指令，机器提供响应。通过阅读文档或一组指令，智能系统应该能够回答各种各样的问题。

强大的深度学习架构（称为动态内存网络（DMN））已针对QA问题进行了专门开发和优化。给定输入序列（知识）和问题的训练集，它可以形成情节记忆，并使用它们来产生相关答案。该体系结构具有以下组件：

・语义内存模块（类似于知识库）被用来创建从输入句子的嵌入字序列预先训练手套载体。

・输入模块处理与问题有关的输入矢量称为事实。该模块使用门控循环单元实现，GRU使网络能够了解当前正在考虑的句子是否相关或与答案无关。

・问题模块逐字处理疑问词，并且使用输出相同权重的GRU输入模块的向量。事实和问题都被编码为嵌入。

・情景记忆模块接收从输入中提取和编码的嵌入事实和问题载体。这使用了一个受大脑海马体启发的想法，它可以检索由某些反应触发的时间状态，如景点或声音。

・答案生成模块，通过适当的响应，情景记忆应该包含回答问题所需的所有信息。该模块使用另一个GRU，使用正确序列的交叉熵错误分类进行训练，然后可以将其转换回自然语言。

DMN不仅在质量保证方面做得非常好，而且在情感分析和词性标注方面也优于其他架构。自开发以来，动态内存网络已经有了重大改进，进一步提高其在问答环境中的准确性，包括：

・用于视觉和文本问题的动态存储网络问答应用基本上是将DMN应用于图像，其内存和输入模块已升级，以便能够回答视觉问题。该模型改进了许多基准Visual Question Answering数据集的现有技术水平，而不支持事实监督。

・用于问题应答的动态Coattention网络解决了从对应于不正确答案的局部最大值恢复的问题。它首先融合了问题和文件的共同依赖表示，以便集中于两者的相关部分。然后，动态指向解码器迭代潜在的答案跨度，该迭代过程使模型能够从对应于不正确答案的初始局部最大值中恢复。

篇幅有限，本文不会把每一题的参考答案都加载出来，会摘出一些摘要，完整解析见题库！

添加老师微信：julyedukefu14，回复 ” 6 “ ，领取最新升级版《名企AI面试100题》电子书！

6、了解文本摘要中的NLP技术么？

人类很难手动汇总大型文本文档。文本摘要是NLP为源文档创建简短、准确和流畅的摘要问题。随着推送通知和文章摘要获得越来越多的注意力，为长文本生成智能且准确摘要的任务每天都在增长。

通过首先计算整个文本文档的单词频率来自动汇总文本。

然后，存储和排序100个最常用的单词。然后根据它包含的高频词数对每个句子进行评分，更高频率的词，价值更大。

最后，根据它们在原始文本中的位置来获取和排序前X个句子。

文本摘要有两种基本方法：提取和抽象。前者从原始文本中提取单词和单词短语以创建摘要。后者是学习内部语言表示以生成更像人类的摘要，解释原始文本的意图。

7、了解注意力机制么？

神经网络中的注意力机制是基于人类的视觉注意机制。人类的视觉注意力虽然存在不同的模型，但它们都基本上归结为能够以“高分辨率”聚焦于图像的某个区域，同时以“低分辨率”感知周围的图像，然后随着时间的推移调整焦点。

想象一下，你正在阅读一篇完整的文章：不是按顺序浏览每个单词或字符，而是潜意识地关注一些信息密度最高的句子并过滤掉其余部分。你的注意力有效地以分层方式捕获上下文信息，这样就可以在减少开销的同时做出决策。

那为什么这很重要？诸如LSTM和GRU之类的模型依赖于读取完整的句子并将所有信息压缩为固定长度的矢量。这需要基于文本统计属性的复杂特征工程，用几个单词表示的数百个单词的句子肯定会导致信息丢失，翻译不足等。

8、如何通俗理解Word2vec

小编注：考虑到下文（穆文：[NLP] 秒懂词向量Word2vec的本质

引子

大家好

我叫数据挖掘机

皇家布鲁斯特大学肄业

我喝最烈的果粒橙，钻最深的牛角尖

――执着如我

今天我要揭开Word2vec的神秘面纱

直窥其本质

相信我，这绝对是你看到的

最浅白易懂的 Word2vec 中文总结

（蛤？你问我为啥有这个底气？

且看下面，我的踩坑血泪史。。。）

Word2vec参考资料总结

(以下都是我踩过的坑，建议先跳过本节，阅读正文部分，读完全文回头再来看)

先大概说下我深挖 word2vec 的过程：

本文地址： https://www.xxs100.com//show-395742.html

聚观早报 ｜字节开展类ChatGPT研究；特斯拉前AI负责人加入OpenAI

开源语音ai open ai 中文语音识别

nlp自然语言面试题 自然语言处理nlp从入门到精通

聚观早报｜字节开展类ChatGPT研究；特斯拉前AI负责人加入OpenAI

nlp自然语言面试题自然语言处理nlp从入门到精通