AI模型预先部署的可靠性检测

基础模型是大量的深度学习模型,这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务,比如生成图像或回答客户问题。 但是,作...

基础模型是大量的深度学习模型,这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务,比如生成图像或回答客户问题。

但是,作为ChatGPT和DALL-E等强大人工智能工具的支柱,这些模型可能会提供不正确或误导性的信息。在安全关键的情况下,比如行人接近自动驾驶汽车,这些错误可能会造成严重后果。

为了防止此类错误,麻省理工学院和麻省理工学院- ibm沃森人工智能实验室的研究人员开发了一种技术,可以在将基础模型部署到特定任务之前评估其可靠性。

他们通过训练一组彼此略有不同的基础模型来做到这一点。然后,他们使用他们的算法来评估每个模型对相同测试数据点学习的表示的一致性。如果表示是一致的,就意味着模型是可靠的。

当他们将他们的技术与最先进的基线方法进行比较时,它在捕获各种分类任务的基础模型的可靠性方面表现得更好。

有人可以使用这种技术来决定一个模型是否应该应用于特定的环境,而不需要在现实世界的数据集上进行测试。当数据集可能由于隐私问题而无法访问时,例如在医疗保健环境中,这可能特别有用。此外,该技术可用于基于可靠性分数对模型进行排序,使用户能够为其任务选择最佳模型。

“所有模型都可能出错,但知道自己什么时候出错的模型更有用。对于这些基础模型来说,量化不确定性或可靠性的问题变得更加困难,因为它们的抽象表示难以比较。我们的方法可以让你量化表示模型对于任何给定输入数据的可靠性,”资深作者Navid Azizan说,他是麻省理工学院机械工程系和数据、系统和社会研究所(IDSS)的Esther和Harold E. Edgerton助理教授,也是信息和决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park (LIDS研究生)一起撰写了一篇关于这项工作的论文;麻省理工学院- ibm沃森人工智能实验室的研究科学家王浩;以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将在人工智能不确定性会议上发表。

统计共识

传统的机器学习模型被训练来执行特定的任务。这些模型通常根据输入做出具体的预测。例如,模型可能会告诉你某张图片中是猫还是狗。在这种情况下,评估可靠性可能只是查看最终预测,看看模型是否正确。

但基金会的模式是不同的。该模型使用一般数据进行预训练,其创建者并不知道该模型将应用于的所有下游任务。用户在训练完成后就可以让它适应自己的特定任务。

与传统的机器学习模型不同,基础模型不会给出像“猫”或“狗”标签这样的具体输出。相反,它们基于输入数据点生成抽象表示。

为了评估基础模型的可靠性,研究人员使用了一种集成方法,通过训练几个模型,这些模型具有许多相同的特性,但彼此之间略有不同。

“我们的想法就像计算共识。如果所有这些基础模型对我们数据集中的任何数据都给出了一致的表示,那么我们可以说这个模型是可靠的,”Park说。

但他们遇到了一个问题:他们如何比较抽象的表示?

他补充说:“这些模型只是输出一个矢量,由一些数字组成,所以我们不能轻易地比较它们。”

他们用一种叫做邻域一致性的想法解决了这个问题。

对于他们的方法,研究人员准备了一组可靠的参考点来测试模型的集合。然后,对于每个模型,他们调查位于该模型表示的测试点附近的参考点。

通过观察相邻点的一致性,他们可以估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以把这个空间看成一个球体。每个模型都将相似的数据点映射到其球体的同一部分,因此猫的图像放在一个地方,狗的图像放在另一个地方。

但是每个模型会在自己的领域内绘制不同的动物地图,所以当猫可能被分组在一个球体的南极附近时,另一个模型可以在北半球的某个地方绘制猫的地图。

研究人员使用像锚一样的邻近点来对齐这些球体,这样它们就可以使表征具有可比性。如果一个数据点的邻居在多个表示中是一致的,那么应该对该点的模型输出的可靠性有信心。

当他们在大范围的分类任务中测试这种方法时,他们发现它比基线更加一致。另外,它不会因为挑战测试点而导致其他方法失败。

此外,他们的方法可用于评估任何输入数据的可靠性,因此人们可以评估模型对特定类型的个体(例如具有某些特征的患者)的效果如何。

王说:“即使所有型号的整体性能都是平均水平,从个人的角度来看,你也会更喜欢最适合自己的型号。”

然而,一个限制来自于它们必须训练一个大型基础模型的集合,这在计算上是昂贵的。在未来,他们计划找到更有效的方法来建立多个模型,也许是通过使用单个模型的小扰动。

这项工作部分由麻省理工学院- ibm沃森人工智能实验室、MathWorks和亚马逊资助。

本文来自作者[幼柳]投稿,不代表ibkak号立场,如若转载,请注明出处:https://wap.ibkak.cn/jyfx/202508-2034.html

(1)

文章推荐

  • 猪笼草的进化之谜:多倍体如何推动新功能的出现

      虽然拥有多于两套完整染色体可能会影响植物谱系的长期生存,但科学家们发现,这可能是某些进化现象的原因之一。突变导致生物体获得额外的基因拷贝,实际上为其常规功能提供了冗余,使得某些拷贝能够以全新的方式进化和表达。以东亚猪笼草为例,这种突变甚至

    2025年07月14日
    0
  • 独家报道:伊拉克政府银行掌握88%的银行投资份额

      伊拉克政府银行占了金融和经济部门88%的投资伊拉克总理穆罕默德·萨利赫的经济顾问已于周一确认。萨利赫告诉沙法克新闻,“哦这些投资中只有12%留在了私营银行。”从最广泛的意义上讲,银行业包括所有金融中介机构,资金通过这些中介机构流向各个活动领域,尽管它们是传统的最后它已经消失

    2025年07月24日
    0
  • 哈里王子即将继承数百万美元遗产,尽管与王室关系紧张

      有消息称,哈里王子将在9月15日庆祝他的40岁生日时,收到数百万欧元的礼物。据悉,苏塞克斯公爵哈里将从他已故的曾祖母,即1994年设立信托基金的女王母亲那里获得一笔巨额资金。《泰晤士报》报道,该信托基金的价值约为1900万英镑,旨在为年轻的

    2025年07月27日
    0
  • 劳工部设定2025年联邦承包商最低薪资标准

    周一,美国劳工部(LaborDepartment)采取了关键措施,将在明年1月提高各种联邦承包商的最低工资,有效地将合同工作的最低工资提高到每小时17.75美元。这一消息来自周一发表在《联邦公报》(FederalRegister)上的两份公告。2021年,拜登总

    2025年07月30日
    0
  • 吉米·法伦打算用胶带封嘴,寻求安稳睡眠

    吉米·法伦表示,在临近50岁生日之际,他将把健康放在首位。法伦说,他计划睡觉时用胶带封住嘴巴,强迫自己用鼻子呼吸。虽然用鼻子呼吸有助于睡眠,但专家警告说Ned反对嘴带。感谢您的报名!转到时事通讯偏好当吉米

    2025年08月02日
    0
  • 战略与影响力的引导:尼廷·普拉萨德如何将项目转化为成功案例

    NitinPrasad的职业生涯是一个光辉的例子,说明战略思维、技术专长和对成功的不懈追求如何将复杂的项目转化为成功的故事。凭借20多年的IT项目管理经验和众多认证,Nitin拥有独特的方法,推动了许多数百万美元的项目成功完成。在这个独家的问答中,Nitin分享了他丰富的经验,他

    2025年08月04日
    0
  • 北极研究人员找到了一种提升海冰量的方式

    南极冰盖正在以比过去几十年更快的速度退缩,这引起了人们对全面崩溃的担忧。上周,科学家们公布了有关南极洲巨大的斯韦茨冰川的发现。研究人员表示,冰盖的未来前景“黯淡”。这个冰封的冰川大约有英国那么大,被称为“末日冰川”,

    2025年08月08日
    0
  • 泰坦潜艇事故:美国海岸警卫队听证会带来的新发现

      在过去的两周里,美国海岸警卫队举行了听证会,调查15个月前在北大西洋海底发生内爆的私人潜水船“泰坦”号是如何导致船上5人死亡的。海岸警卫队在水面下两英里处发布了泰坦号残骸的视频,以及该船与其母船之间的详细通信日志、数十份文件,以及20多名证人的证词录音,其

    2025年08月08日
    0
  • 罗伯特·费雪:35个鲜为人知的真相

    罗伯特·威廉·费希尔1961年4月13日出生于亚利桑那州图森市,他的名字让很多人不寒而栗。费希尔被指控犯有亚利桑那州历史上最令人发指的罪行之一,据称他在2001年炸毁了他们在斯科茨代尔的家之前谋杀了他的妻子和两个孩子。为什么罗伯特·费雪逃避追捕近二十年?这个问题让调查人员和公众都

    2025年08月11日
    0
  • 拜登总统称赞莫迪总理访乌,彰显和平愿景

      白宫在一份声明中表示,美国总统乔·拜登在与印度总理纳伦德拉的电话交谈中,赞扬了后者对波兰和乌克兰的“历史性访问”以及他所传达的和平信息。两位领导人讨论了莫迪总理对两个欧洲国家的访问以及即将于9月举行的联合国大会。

    2025年08月15日
    0

发表回复

本站作者后才能评论

评论列表(4条)

  • 幼柳
    幼柳 2025年08月16日

    我是ibkak号的签约作者“幼柳”!

  • 幼柳
    幼柳 2025年08月16日

    希望本篇文章《AI模型预先部署的可靠性检测》能对你有所帮助!

  • 幼柳
    幼柳 2025年08月16日

    本站[ibkak号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 幼柳
    幼柳 2025年08月16日

    本文概览:基础模型是大量的深度学习模型,这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务,比如生成图像或回答客户问题。 但是,作...

    联系我们

    邮件:ibkak号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们