open ai接口怎么用 open ai最新消息

热门文章 2023-02-14 09:22:11 0

本文首发于公众号「NLP情报局」

你还记得去年5月，OpenAI提出了包含1750亿参数的GPT究极进化版模型GPT-3吗？

在长达72页的论文中，作者证明了对于所有任务，GPT-3无需进行任何梯度更新或微调，仅通过与模型的文本交互指定任务和少量示例(few-shot)即可获得很好的效果。

除了常规的翻译、问答和文本填空任务，GPT-3的出色能力还体现在一些即时推理或领域适应的任务，例如给一句话中的单词替换成同义词，或执行 3 位数的数学运算。

然而，此前OpenAI并没有暴露GPT-3的访问接口，普通用户想要测试，需要填写申请表并经过N天等待。直到11月18号，OpenAI的官方博客带来了两个消息：

1）OpenAI为众多国家开发了白名单，开发人员注册账号就可以立刻体验GPT-3接口。

2）中国不在首批开放的国家列表中 orz..

Anyway，虽然我们暂时用不了接口，但这次OpenAI更新的内容还是透露了很多信号，例如GPT-3的功能列表，商业化布局等等。

官网一共提供了49种使用示例，有分类、对话、生成、翻译、SQL等各种类型的任务。

GPT-3就像一个聪明的学生，每次只需要提供极少的样本，就能举一反三。

例如在语法纠错demo中，用户只需要在输入中提供一个原始的句子，并告知模型希望遵循“美式英语”，模型就会输出纠正后的句子表达：

实现的代码也非常简单：

import os  import openai    openai.api_key = os.getenv("OPENAI_API_KEY")    response = openai.Completion.create(    engine="davinci",    prompt="Original: She no went to the market.\  Standard American English:",    temperature=0,    max_tokens=60,    top_p=1.0,    frequency_penalty=0.0,    presence_penalty=0.0,    stop=["\  "]  )

价格方面，GPT-3一共提供了4款模型供用户选择，Ada是最轻量、响应最快的模型，Davinci效果最强大，可以应对复杂文本推理和因果分析。

每位用户在开始的3个月中，有18刀的免费额度。后面只需要为你使用的资源付费。

以Davinci为例，0.06美金可以调用1000个token，约等于750个英文单词。

如果你想在某些子领域内获得更好的性能，还可以通过特定数据微调GPT-3，同样也是按token收费。

GPT-3是第一个将模型转换为付费服务的PLM产品，从这个角度看具有划时代的意义。

它真正厉害的地方在于few-shot能力，在不精调或者只利用prompt的情况下就能获得很好的效果，从而实现卖服务长期捞金的商业模式。

此前GPT-3已经提供了最基础的生成、分类、问答、搜索应用的API，还能满足用户多种定制化需求。例如分类支持用户提供标注示例，搜素支持用户上传自定义文档等等。

这些贴心的设计只为向用户传递一个信息：GPT-3不是一个停留在实验室的demo，而是真的能产生实际价值！

国内目前对于巨无霸模型的玩法，基本是先在某一个评测数据集上刷到sota，然后火速转成一篇paper证明这种方法work，最后“忍痛”把权重开源。对于模型在实际业务中的落地，考虑的有点少。

我们知道，AI有三要素：算力、算法和数据。在前两者固定的情况下，GPT3通过庞大的规模带来了震撼的影响，可以实现其他模型无法做的事情：

执行特定任务无需特殊调整，可以做翻译，写程序，作诗，写文章，仅需要提供极少的训练样本或prompt。

同时，GPT-3在“产品化”上花了很多心思，考虑了不同业务的定制化需求，提供了详细的demo、文档和付费服务，为我们的国产大模型提供了很好的范例。

利用当下的技术和数据积累，产出服务和价值，继而获取更多的需求和数据，是一个良性循环。长此以往，一定能形成真正的壁垒。

最后和你正式介绍一下自己哈：

我是叶琛，一个爱旅行，懂养生的算法工程师兼干货答主，也是个喜欢用接地气的文风为年轻朋友分享职场经验和算法知识的人。希望我的文字可以为你提供帮助。

总结不易，如有帮助请给 @Giant点个赞哟，谢谢啦！

OpenAI首届迁移学习竞赛，南大阿里团队夺冠，中科院第二

openai是哪个公司的,openai在您所在的国家不可用,openai services are not available,openai 马斯克

OpenAI举办的首届迁移学习竞赛Retro Contest结束，在全部229支队伍里，来自中国的团队获得了冠亚军。冠军是一个6人团队，其中有南京大学和阿里巴巴搜索事业部的研究人员；亚军是中科院的两名研究生。

这个竞赛的目标，是评估强化学习算法从以往的经验中泛化的能力。具体说，就是让AI玩视频游戏《刺猬索尼克》，这是世嘉公司开发的一款竞速式2D动作游戏，其基本上模拟马里奥的游戏方式，玩家在尽可能短的时间内到达目的地，索尼克可以通过不停加速来快速完成关卡。最后可能需要对抗BOSS。

冠军方案展示：由南大和阿里研究人员组成的Dharmaraja队的agent，学习穿越游戏中海洋废墟区域（Aquatic Ruin Zone）。Agent已经在游戏的其他关进行过预训练，但这是第一次遇到这一关。

OpenAI的这个竞赛Retro Contest从2018年4月5日发布，持续时间为2个月。开始有923支队伍报名，但最终只有229个提交了解决方案。OpenAI的自动评估系统对这些结果进行了评估。为了避免参赛者拟合数据集，评审时使用了完全不同的数据集。此外，OpenAI还将前十名的最终提交结果进行了再测试，让这些agents在11个由游戏设计师特别设计的关卡中，分别进行了3次测试，每次都从环境中随机生成初始状态。最终得到的排名如下：

前五名排名

其中，冠军Dharmaraja在测试和评审中始终排名第一，mistake以微弱的优势战胜aborg取得第二。这张图显示了排名前三的三个方案的agent在同一个关卡学习的情况。红点代表初期，蓝点代表后期。从上到下分别是Dharmaraja、aborg和mistake。

所有关卡平均下来，这几支队伍的学习曲线是这样的：

值得注意的是，Dharmaraja和aborg在开始阶段分数相近，而mistake的则要低很多。这是因为前两支队伍的方法，是对预训练网络进行微调（使用PPO），而mistake则是从零开始训练（使用Rainbow DQN）。mistake的学习曲线提前结束，是因为他们在12小时的时候时间用完了。

OpenAI对这次的竞赛的评价是，从整体看，虽然参赛队伍尝试了很多方法，但主要的结果都来自对现有算法（如PPO和Rainbow）的微调或扩展。同时，结果也显示了我们还有很长的路要走：训练后AI玩的最高成绩是4,692分，而理论最好成绩是10,000分。

但是，获胜的解决方案是一般的机器学习方法，而不是针对这次竞赛进行的hacking，表明作弊是不可能的，也就证实了OpenAI的Sonic基准是机器学习研究界一个值得去关注的问题。

获奖团队及方案：PPO和Rainbow优化

Dharmaraja（法王）是一个6人组成的团队：Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中，Qing Da和Anxiang Zeng来自阿里巴巴搜索事业部AI团队，他们最近与南京大学副教授Yang Yu合作，研究如何将强化学习用于现实世界问题，尤其是电子商务场景。

Dharmaraja的解决方案是联合PPO的变体。PPO（proximal policy optimization，近端策略优化算法），是此前OpenAI为强化学习提出的一类新的策略梯度法，可以通过与环境的交互在样本数据中进行转换，使用随机梯度下降优化替代目标函数（surrogate objective function）。标准的策略梯度法是在每一个数据样本上执行一次梯度更新，而PPO的新目标函数可以在多个训练步骤（epoch）中实现小批量（minibatch）的更新。PPO 拥有置信域策略优化（TRPO）的一些好处，但更加容易实现，也更通用，并且有更好的样本复杂度。OpenAI研究人员认为，考虑到总体的复杂度、操作简便性和 wall-time，PPO 是比在线策略梯度法更好的选择。

在PPO的基础上，Dharmaraja的解决方案做了一些改进。首先，使用RGB图像而不是灰度图做输入。其次，使用了稍微扩大的动作空间，并使用更常见的按钮组合。第三，使用了增强奖励功能，奖励agent访问新的状态（根据屏幕的感知散列来判断）。

除了这些改进外，团队还尝试了许多东西，比如DeepMimic，使用YOLO进行对象检测，以及一些针对索尼克游戏的特定想法。不过这些方法并没有特别起效。

代码：https://github.com/eyounx/RetroCodes

Mistake

Mistake队有两名成员，Peng Xu和Qiaoling Zhong。他们都是研二的学生，来自中国科学院网络数据科学与技术重点实验室。

他们的解决方案是基于Rainbow基准。Rainbow是DeepMind对DQN算法进行的组合改良。DeepMind的实验表明，从数据效率和最终性能方面来说，Rainbow能够在Atari 2600基准上提供最为先进的性能。

Mistake团队进行了一些有助于提升性能的修改：n对n步Q-learning的更好的值；额外添加了一层CNN层到模型，这使得训练速度更慢但更好；DQN目标更新间隔更短。此外，团队还尝试与Rainbow进行联合训练，但发现这样做实际上降低了性能。

原文发布时间为：2018-06-23

本文作者：文强

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”。

原文链接：OpenAI首届迁移学习竞赛，南大阿里团队夺冠，中科院第二