你的位置:体育彩票 > 篮球体育下注 >
  • 博彩业在澳门微球体育app下载苹果版_初度打败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模子吊打ChatGPT

    发布日期:2024-12-24 04:31    点击次数:100
    博彩业在澳门微球体育app下载苹果版_

    新智元报说念亚星棋牌

    皇冠官网地址

    裁剪:裁剪部

    【新智元导读】GPT-4在斯坦福AlpacaEval的榜首之位,确实被一匹黑马抢过来了。

    第一个在AlpacaEval上卓绝GPT-4的模子,出现了!

    本年6月,AlpacaEval榜单一公布,GPT-4就以系数当先的上风夺得第一,胜率逾越95%。

    三个月后,一匹叫Xwin-LM的黑马,确实正式居榜首的GPT-4从TOP 1拉下来了?

    皇冠客服飞机:@seo3687

    技俩地址:https://tatsu-lab.github.io/alpaca_eval/

    而且,Xwin-LM在同参数模子的对垒中,也毫无例外地拿下了三个第一:

    Xwin-LM-70B-V0.1:在AlpacaEval基准测试中对Davinci-003的胜率达到95.57%,在AlpacaEval中名循序一。亦然第一个在AlpacaEval上卓绝GPT-4的模子。此外,它对上GPT-4的胜率为60.61。 Xwin-LM-13B-V0.1:在AlpacaEval上取得了91.76%的胜率,在通盘13B模子中名循序一。 Xwin-LM-7B-V0.1:在AlpacaEval上取得了87.82%的胜率,在通盘7B机型中名循序一。

    Xwin-LM:700亿参数打赢GPT-4

    Xwin-LM是以Llama 2为基础进行微调的,该模子旨在开拓和开源大言语模子的对皆技能,包括监督微调(SFT)、奖励模子(RM)、拒却采样、东说念主类反映强化学习(RLHF)等。

    1. 性能评估

    玩法

    沟通东说念主员评估了Xwin-LM在805个问题上与Text-Davinci-003 、ChatGPT和GPT-4的胜率。

    不错看到,Xwin-LM的70B模子完全霸榜,成为AlpacaEval狡计上的性能评估的第一,并初度打败了GPT-4,对GPT-4的胜率达到了60.61%。

    Xwin-LM其他界限的模子,如Xwin-LM-13B-V0.1、Xwin-LM-7B-V0.1在性能上也远超调换界限的其他模子。

    Xwin-LM-7B-V0.1致使逾越了比它界限更大的Llama 2-13B-Chat。

    2. 案例比较

    在第一个案例中,沟通东说念主员向GPT-4和Xwin-LM发问:

    博彩业在澳门

    「我把一个盘子放在苹果上头,然后把盘子从厨房带到餐厅。苹果当今在那处?」

    GPT-4的回答是:

    「苹果当今在餐厅,当你把盘子从厨房到端餐厅时,它就在盘子底下。」

    皇冠信用

    在这里GPT-4给出了一个穷乏知识的回答,履行生存中有重力,在盘子下方的苹果保抓原本的情景,并不会和盘子沿路到餐厅。

    14代皇冠导航地图更新

    比拟之下,Xwin-LM的回答就比较顺应履行情况,何况还给出了把苹果带到厨房的程序:

    「苹果还在厨房里,因为你仅仅转移了盘子。

    皇冠体育hg86a

    苹果在盘子底下,是以要是你念念把苹果带到餐厅,你应该平直转移苹果或把苹果放在盘子里,然后把盘子移到餐厅。」

    孟晚舟飞离加拿大当天,华为发布全新操作系统欧拉。孟晚舟回国同一天,2021中国民营企业500强榜单发布,华为继续蝉联500强榜单第一位,占据研发投入发明专利数第一名。

    在第二个案例中,沟通东说念主员向GPT-4和Xwin-LM发问:

    「怎么法语说『晚上好』?」

    GPT-4的回答是:

    「在法语中,『晚上好』用『bonsoir』抒发。」

    而Xwin-LM的回答是:

    「在法语中,『晚上好』被翻译为『bonsoir』。这种致敬语在晚上和夜间使用,相似不才午 6 点之后。

    它是『bon』(兴味是好)和『soir』(兴味是晚上)的组合。要发音,请说『bone-swahr』」。

    固然GPT-4的回答是正确的,但Xwin-LM不仅正确回答了问题,还阐明了法语抒发中「晚上好」的来源和发音,反映给用户的信息愈加丰富。

    3. NLP任务

    下表是Xwin-LM与其他LLM在NLP基础任务上的比较。

    不错看到,Xwin-LM-70B-V0.1模子在通盘任务中的性能都相对较高,在MMLU 5-shot和HellaSwag 10-shot任务中更是解析出色。

    何况,从玄虚水平上来说,Xwin-LM-70B-V0.1是解析最佳的。

    4. 推理才调

    沟通东说念主员提议,为了在使用Xwin-LM进行推理时得回所需的箝制,需要严格遵守推理的对话模板。

    Xwin-LM继承Vicuna设立的辅导神志,并维持多回合对话。

    A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: Hi! ASSISTANT: Hello.s>USER: Who are you? ASSISTANT: I am Xwin-LM.s>......

    HuggingFace示例

    from transformers import AutoTokenizer, AutoModelForCausalLMmodel = AutoModelForCausalLM.from_pretrained(\"Xwin-LM/Xwin-LM-7B-V0.1\")tokenizer = AutoTokenizer.from_pretrained(\"Xwin-LM/Xwin-LM-7B-V0.1\")prompt := \"A chat between a curious user and an artificial intelligence assistant. \"\"The assistant gives helpful, detailed, and polite answers to the user's questions. \"\"USER: Hello, can you help me? \"\"ASSISTANT:\"inputs = tokenizer(prompt, return_tensors=\"pt\")samples = model.generate(**inputs, max_new_tokens=4096, temperature=0.7)output = tokenizer.decode(samples[0][inputs[\"input_ids\"].shape[1]:], skip_special_tokens=True)print(output)# Of course! I'm here to help. Please feel free to ask your question or describe the issue you're having, and I'll do my best to assist you.

    VLLM示例

    8月7日,接近碧桂园人士向《每日经济新闻》记者表示,佛山市副市长带队的工作组进驻碧桂园这一传言不属实。

    因为Xwin-LM是基于Llama 2微调而来,它还维持使用VLLM进行快速推理。

    from vllm import LLM, SamplingParamsprompt := \"A chat between a curious user and an artificial intelligence assistant. \"\"The assistant gives helpful, detailed, and polite answers to the user's questions. \"\"USER: Hello, can you help me? \"\"ASSISTANT:\"sampling_params = SamplingParams(temperature=0.7, max_tokens=4096)llm = LLM(model=\"Xwin-LM/Xwin-LM-7B-V0.1\")outputs = llm.generate([prompt,], sampling_params)for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(generated_text)

    微球体育app下载苹果版皇冠体育

    AlpacaEval:易使用、速率快、老本低、经由东说念主类标注考证

    行为一款LLM自动评估用具,AlpacaEval把AlpacaFarm和Aviary进行了聚会。

    一方面使用与AlpacaFarm调换的代码(缓存/立地成列/超参数),另一方面则使用近似于Aviary的排序辅导。

    与此同期,还对Aviary的辅导进行了修改,从而减少对较长输出的偏见。

    团队示意,AlpacaEval有着拔群的恶果:

    - 与东说念主类无数票的一致性,高于单个东说念主类标注者

    - 胜率与东说念主类标注高度联系(0.94)

    - 胜率

    模子的输出在每个指示上优于text-davinci-003(即参考文本)的比例。

    具体而言,开头从AlpacaEval数据齐集网罗了盼望模子在每个指示上的输出对,并将每个输出与调换指示下的参考模子(text-davinci-003)的输出进行配对。

    随后,把这些输出同期喂给自动评测器,让它去判断哪一个更好(也等于评测器的偏好)。

    终末,将数据齐集通盘指示的偏好进行平均,从而得到模子相关于text-davinci-003的胜率。要是两个模子打平,那么就算半个偏好。

    论文地址:https://arxiv.org/pdf/2305.14387.pdf

    - 局限性

    固然AlpacaEval为比较模子遵从指示的才调提供了一种有用的程序,但它并不是对模子才调进行全面评估的黄金标准。

    皇冠客服已暂停服务

    正如AlpacaFarm论文中胪陈的那样,自动标注器的胜率与长度联系。固然东说念主类标注也会有这种偏差,但刻下还不明晰更长的谜底是否会加多卑劣任务的效用。

    此外,AlpacaFarm的评估集固然多种千般,但主要由浮浅的指示构成。

    终末,AlpacaEval并不评估任何模子的安全性。

    参考贵府:

    https://huggingface.co/Xwin-LM/Xwin-LM-70B-V0.1