OpenAI活动第二弹:“强化微调”打造领域专家A

12 月 7 日新闻,OpenAI 启动了为期 12 天的“shipmas”新品宣布周期,将推出一系列新功效、新产物以及相干演示。本次运动第二日,OpenAI 推出了强化微调(Reinforcement Fine-Tuning),辅助开辟者跟呆板进修工程师打造针对特定庞杂范畴义务的专家模子。该名目经由过程全新的模子定制技巧,闪开发者能够应用高品质义务集对模子停止微调,并应用参考谜底评价模子的呼应,从而晋升模子在特定范畴义务中的推理才能跟正确性。强化微调简介IT之家附上官方先容:开辟职员可能应用数十到数千个高品质义务,定制 OpenAI 的模子,并应用供给的参考谜底对模子的呼应停止评分。官方表现这项技巧强化了模子推理相似成绩的方法,并进步了其在该范畴特定义务上的正确性。与尺度微调差别,RFT 应用强化进修算法,能够将模子机能从高中程度晋升到专家博士程度。RFT 与监视式微调差别,它不是让模子模拟输入,而是教模子以全新的方法停止推理,经由过程对模子谜底停止评分并强化准确的推理道路,RFT 只要大批示例即可明显进步模子机能。RFT 支撑用户应用本人的黄金数据集创立奇特的模子,并将其利用于执法、金融、工程、保险等须要专业常识的范畴。强化微调面向群体OpenAI 励研讨机构、高校跟企业请求,特殊是那些现在由专家引导履行一系列狭小庞杂义务,而且将受益于人工智能帮助的机构。OpenAI 表现强化微调在成果存在客不雅“准确”谜底,且年夜少数专家会批准的义务中表示杰出,因而以为在执法、保险、医疗、金融、工程等范畴会有更好的表示。参加者可提前拜访 Alpha 版强化微调 API,并在特定范畴义务中停止测试,别的 OpenAI 激励参加者分享数据集,独特改良 OpenAI 模子。OpenAI 估计 2025 年终公然宣布强化微调功效。OpenAI 首席履行官山姆・阿尔特曼(Sam Altman)表现:“强化微调,后果出奇地好;它是我 2024 年最年夜的惊喜之一。”【起源:IT之家】   申明:新浪网独家稿件,未经受权制止转载。 -->