微软整合openai的ai技术微软与openai建立合作关系

openai创始人谈chatgpt 微软开始提供更多openai服务

openai公司,openai公司上市了吗,openai 中国,openai 官网
格隆汇1月17日丨据市场消息，微软(MSFT.US)正在扩大OpenAI软件ChatGPT的取用渠道，而OpenAI是微软支持的一家创业公司，其在去年11月发布的ChatGPT聊天机器人大受欢迎，风靡硅谷。微软表示，其Azure OpenAI服务的用户，现在可以预览ChatGPT，此项技术现已普遍可用，预计使用量将大增。知情人士称，微软已考虑在2019年时宣布持有10亿美元OpenAI股份的基础上加码投资；据悉，投资金额可能达100亿美元。

文本挖掘与机器学习跟踪扫描动态快报（2020.02）

文本挖掘软件,文本挖掘算法,文本挖掘例子,文本挖掘技术自动摘文

2020.02.12 by Mos Zhang

17 Billion Parameters Microsoft Deepspeed Breeds Worlds Largest Nlp Model

深度学习模型正变得越来越大以满足对更好的性能的需求。同时，训练这些庞大的深度学习模型所需的时间和金钱也在不断增加。

最大的训练瓶颈之一是GPU内存，它限制模型训练中使用的参数数量。 Microsoft认为，现有的培训解决方案在计算、通信和开发效率方面会受到影响，主要有两个原因：

数据并行性无法减少每个设备的内存消耗-具有超过10亿个参数的模型将超过具有32G内存的GPU的容量。
模型并行性扩展到多个节点时无法有效扩展C由于细粒度的计算和昂贵的通信，模型的性能在扩展到多个节点时会降低。

为了解决此问题，Microsoft引入了一个名为DeepSpeed的新库，该库可以将每个节点的批处理大小扩大四倍，而将训练量减少三分之二，从而可以训练1000亿个参数模型。

DeepSpeed的一个非常重要的组成部分是ZeRO（Zero Redundancy Optimizer），这是一种新颖的并行化优化器，可以显著减少模型以及数据并行化所需的资源，同时提高可训练参数的数量。

ZeRO的主要优化阶段对应于优化器状态、梯度和参数划分，使其能够减少训练有关内存消耗和增大通信量。

微软表示，ZeRO可以在当前的GPU集群上训练具有1000亿个参数的深度学习模型，“其吞吐量是当前最佳系统的三到五倍”。

微软利用DeepSpeed的大型培训功能，构建了图灵自然语言生成模型（T-NLG）。这是有史以来最大的NLP模型，具有170亿个参数。 T-NLG已在主流NLP任务上实现了SOTA性能。

T-NLG具有比其他任何NLP模型都要多的参数

与Google著名的大规模语言模型BERT和OpenAI的GPT-2一样，T-NLG基于流行且强大的Transformer架构，能够处理要求很高的语言生成任务，例如问题解答和自动摘要。此外，借助DeepSpeed，在具有类似挑战性的NLP任务（依靠更大的训练参数来实现更自然，准确和流畅的文本生成）时，具有170亿个参数的T-NLG可以轻松胜过那些SOTA模型。

在准确性方面，T-NLG在标准语言任务以及抽象摘要任务上表现出明显的性能优势。

T-NLG与GPT-2和Megatron-LM模型在WikiText-103上（复杂性作为度量标准，较低者为佳）和LAMBADA（下一个词预测精度为度量标准，较高者为佳）上相比

T-NLG与PEGASUS模型和以前的SOTA模型在四个常见的抽象摘要数据集上的比较（ROUGE分数作为度量标准，越高越好）

将T-NLG与类似于CopyNet的LSTM模型进行比较，由人类注释者评估的事实和语法正确性。

T-NLG可以做更多的事情，例如直接提问和零样本提问等功能，有关详细信息，请参见Microsoft的博客。

（https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/）遗憾的是，虽然T-NLG尚未开源（但尚未发布），但值得庆幸的是，您可以在GitHub上找到与PyTorch兼容且开源的工具DeepSpeed，并亲自尝试。（https://github.com/microsoft/DeepSpeed）

（李朝安编译，张梦婷校对）

2020.01.30 by OpenAI

OpenAi Pytorch

我们正在PyTorch上标准化OpenAI的深度学习框架。过去，我们根据项目的相对优势在许多框架中执行项目。现在，我们决定通过标准化，以使我们的团队更容易创建和共享模型的优化实现。

作为此举措的一部分，我们刚刚发布了在Deep RL中启用PyTorch的Spinning Up 版本，这是OpenAI制作的开源教育资源，可让您更轻松地了解深度强化学习。我们还在为高度优化的blockparse内核编写PyTorch绑定，并将在接下来的几个月中开源这些绑定。

我们选择PyTorch的主要原因是为了提高我们在GPU上的大规模研究效率。在PyTorch中尝试并执行新的研究思路非常容易；例如，改用PyTorch将使我们在生成建模方面的研究思想的迭代时间从数周缩短至数天。我们也很高兴能加入一个快速增长的开发者社区，社区的活跃者还包括Facebook和Microsoft等组织，以推动GPU规模和性能的发展。

展望未来，我们将主要使用PyTorch作为我们的深度学习框架，但有时在某些特定技术原因时会使用其他框架。我们的许多团队已经做出了转换，我们期待在接下来的几个月中为PyTorch社区做出贡献。

（李朝安编译，张梦婷校对）

2020.02.12 by Esther Shein

IBM Highlights New Approach to Infuse Knowledge into NLP Models

在MIT-IBM Watson AI Lab实验室，杜兰大学和伊利诺伊大学的研究人员本周公布了一项研究，该研究使计算机能够更接近人的阅读理解和推论。

研究人员创造了他们所谓的“突破性神经符号方法”，将知识注入自然语言处理过程。该方法于在纽约市举行一周的AAAI-20会议上宣布。

演绎和推理对于人类和人工智能都是至关重要的，但是许多公司的AI系统仍然难以理解人类语言和文本含义，IBM认为这被定义为两个自然语言句子之间的关系。

MIT-IBM Watson AI Lab实验室的负责人David Cox说：“自AI诞生以来，已经有两个思想流派：一个专注于神经网络/深度学习的使用，在过去几年中非常有效和成功。神经网络和深度学习需要数据和额外的计算能力才能蓬勃发展。数据数字化的出现推动了神经网络/深度学习革命。象征性AI是另一个阵营，它认为人对周围世界的一些了解是基于理性的。不过，过去六年来，关于人工智能的所有硕果都与深度学习和神经网络有关。于是，我们有一个类比的想法，就像神经网络需要数据和计算等东西来重生一样，象征性AI也需要东西”。研究人员得出理论是它也许需要的是神经网络。这两个阵营可以相互补充，并以富有成效的方式利用各自的优势和劣势。

“我们在AI实验室中所做的工作是关于neuro-symbolic AI。它是象征性AI和神经网络的混合思想。” 他认为这篇论文提供了研究人员开始将经典象征性AI与神经网络思想融合在一起的示例。

Cox举例，一个人类能够判断，如果另一个人说他正在外面散步，并且在家吃午餐，那这两个说法是矛盾的。

“我们发现它们是如此自然，但我们没有能够达到如此自然的AI系统能够有同样的理解，这个团队将神经网络和符号AI混合在一起，并使用组合系统来解决问题。” 在论文中，研究人员写道，他们正在提出一种方法，以补充来自外部知识源的信息，对基于文本的包含模型（这是自然语言处理中的基本任务）进行补充。

研究人员写道，使用外部知识可以使模型更健壮并提高预测准确性。他们发现与多个基于文本的包含模型相比提高5%-20%”。

Cox表示目前正在应用于情绪分析的尝试。“对浅层文字有相对的了解将指引我们走向正确的方向” 但是，如果您读了一本科学教科书然后尝试通过测验，则需要对教科书中的数据实际含义有深刻的了解。

该团队发现，用神经网络注入知识图（即已知事物的表示）比以前任何依赖于没有知识图的神经网络方法都要强大。考克斯强调说，研究人员处于研究的早期阶段，但他认为这是一项将影响许多行业的重要技术。

（李朝安编译，张梦婷校对）

2020.02.19 by Kyle Wiggers

Facebooks AI Speeds up Natural Language Processing without Additional Training

自然语言模型通常需要解决两个难题：将句子前缀映射到固定大小的表示形式，以及使用这些表示形式来预测文本中的下一个单词。在最近的一篇论文中，Facebook AI Research的研究人员断言，第一个问题（映射问题）可能比预测问题（基于“最近相邻”检索机制来扩充语言模型的假设）更容易。他们说，它可以记住罕见的模式，并且无需额外的培训即可达到最领先的复杂性评分（用来衡量词汇和语法多样性）。

正如研究人员所解释的那样，语言模型将概率分配给单词序列，以便从上下文tokens序列中估计目标tokens的分布（发生不同可能结果的概率）。所提出的方法kNN-LM将上下文映射到由预训练的语言模型计算出的定长数学表示形式。给定一个训练示例，定义一个键值对，其中键是上下文的数学表示，而值是目标单词。

在测试时，kNN-LM获取输入上下文，并且基于下一个的单词和上下文表示生成输出分布。它根据距离函数检索最近的邻居，此时它计算邻居上的分布，同时汇总每个词汇项在检索到的目标中出现的所有可能概率。

研究人员指出，kNN-LM与任何产生固定大小的上下文表示语言模型兼容。在这项研究中，这使他们能够在包含所有Wikipedia文章的1.03亿个tokens组成的数据集上训练基于Transformer的模型，其中25万个tokens被保留，用于之后的开发和测试。

在实验中，kNN-LM在测试时“显著”优于基线，该团队将其归因于模型能够学习隐含相似的上下文表达的功能倾向。kNN-LM增加了一些计算开销，在单个处理器上花了大约两个小时才能为1.03亿个条目建立缓存，而运行验证集大约需要25分钟。但是团队指出，并行化模型是“简单的”，并且不需要基于GPU的培训。

（李朝安编译，张梦婷校对）

2020.02.24 by Daniel Nelson

Textfooler Algorithm Fools NLP AI

近年来，自然语言处理算法和系统令人印象深刻，但它们仍然容易受到一种被叫做“对抗性示例”的攻击。有着精心设计的短语的“对抗性示例”可能导致NLP系统以意想不到的方式出现不好的效果。AI程序可能会因为这些奇怪的例子而表现失常，因此，AI研究人员正在尝试设计各种方法来避免对抗性例子的影响。

最近，来自香港大学和新加坡科学技术研究局的一组研究人员合作创建了一种算法，该算法演示了对抗性示例的危险。如Wired所报道，该算法被研究团队称为TextFooler，它通过巧妙地更改句子的一部分来影响NLP分类器对该句子的分类。例如，该算法将一个句子转换为另一个相似的句子，并将该句子输入分类器，该分类器用于确定评论是正面的还是负面的。原来的句子是：

The characters, cast in impossibly contrived situations, are totally estranged from reality.

它被转换成这个句子：

The characters, cast in impossibly engineered circumstances, are fully estranged from reality.

这些细微的变化促使文本分类器将评论分类为正面而不是负面。研究小组在几种不同的数据集和文本分类算法上测试了相同的方法（用同义词替换某些单词）。研究团队报告说，他们能够将算法的分类准确性从90％降低到10％。尽管事实是，人们阅读这些句子会把它们解释为具有相同的含义。

在一个越来越频繁地使用NLP算法和AI的时代，NLP算法被用于诸如评估医疗索赔或分析法律文件等重要任务，这些结果令人担忧。目前尚不清楚当前使用的算法对抗性的例子有多大危险。世界各地的研究团队仍在努力确定他们可以产生多少影响。最近，斯坦福大学Human-Centered AI小组发布的一份报告表明，对抗性示例可能会欺骗AI算法，并被用于进行税务欺诈。

最近的研究存在一些局限性。例如，虽然加州大学欧文分校计算机科学系的助理教授Sameer Singh注意到所使用的对抗方法是有效的，但它依赖于AI体系结构的一些知识。AI必须被反复探测，直到找到有效的单词组为止，这种重复的攻击可能会被安全程序注意到。Singh及其同事对此进行了研究，发现像OpenAI算法这样的高级系统可以在在某些触发短语的提示下传递带有种族主义色彩的有害信息。

在处理照片或视频等视觉数据时，对抗性示例也是一个潜在问题。一个著名的示例涉及对小猫的图像进行某些微妙的数字转换，促使图像分类器将其解释为监视器或台式PC。在另一个例子中，加州大学伯克利分校的教授Dawn Song的研究发现，对抗性例子可以用来改变计算机视觉系统对路标的感知方式，这可能对自动驾驶汽车造成危险。

像香港-新加坡团队所做的这样的研究可以帮助AI工程师更好地了解AI算法具有哪些漏洞，并设计出可能防范这些漏洞的方法。作为示例，集成分类器可用于减少对抗性示例欺骗计算机视觉系统的机会。通过这种技术，使用了许多分类器，并对输入图像进行了微小的变换。大多数分类器通常会识别图像真实内容的各个方面，然后将它们汇总在一起。结果是，即使一些分类器被骗了，大多数分类器也不会被欺骗，并且图像将被正确分类。

（王宇飞编译，张梦婷校对）

2020.1.30 by Mislav Marohni?