数据集中存在错误标注怎么办置信学习帮你解决

雷锋网AI开发者按,如果你曾经使用过诸如 CIFAR、MNIST、ImageNet 或 IMDB 之类的数据集,那么你可能会假设类标签是正确的。令人吃惊的是,ImageNet 中可能至少有 10 万个标签有问题。为什么我们不早点找到它们?在海量数据集中描述和发现标签错误的原则性方法非常具有挑战性,解决方案也很有限。

在这篇文章中,作者讨论了一个新兴的、原则性的框架,用于识别标签错误、描述标签噪声,并使用被称为置信学习(CL)的噪声标签进行学习,该框架是开源的 cleanlab Python 包。

在 Amazon 评论中存在的标签错误的例子,使用置信学习来识别不同的数据模式和模型

带噪标签与不带噪标签置信联合与估计联合分布的置信学习过程及实例,其中,y~ 表示观察到的噪声标签,y* 表示潜在的未损坏标签

3.工作地点无附属绿地,也难以看到或到达绿色空间

左:置信计数示例,这是一个不正常的联合估计;右:有三类数据的数据集的噪声标签和真标签的联合分布示例

针对工作场所与绿色空间的关系主要有以下3种情况:

“笑容终会战胜疫情,我们会最终度过难关的!”孙承泽的话语中充满乐观与信心。

方案三、园艺栽培活动为工作赋能

ImageNet 本体论问题中类命名问题的自动发现

上图显示了使用置信学习发现的 2012 ILSVRC ImageNet 训练集中的标签错误的例子。为了便于解释,我们将使用 CL 在 ImageNet 中发现的标签问题分为三类:

雷锋网版权文章,。详情见转载须知。

已有学者研究指出科技园区的绿地使用情况与员工的健康自评状况有显著相关性。因此在工作时间内可以适当提高绿地的使用率。建议在做好自身防护措施的情况下,分批、有组织地进入绿地中进行简单的身体锻炼,或者自由活动,放松休息。这样既保证了适度的室外活动时间,也能控制人群过度密集接触。从相对封闭的室内空间中进入室外绿地也有利于呼吸新鲜空气,促进室内空气流通,降低病毒浓度以达到清洁卫生,预防疾病传播的目的。

清华大学建筑学院绿色疗法与康养景观研究中心致力于利用以植物为主体的自然力量改善人们身心健康方法及其功效的研究。目前有多项研究证明了绿色空间与身心健康之间存在的相关性。也就是说,我们可以利用触手可及的绿色植物来帮助自我调节身心,缓解不适,塑造健康的工作状态。

从上图右侧的矩阵中,估计标签问题:

王亚鑫是集宁工务段卓资山站的一名信号工。疫情防控工作开展以来,他主动投身志愿战“疫”队伍,利用休班时间奔波在募集、采购、发放抗疫物资的路上。

工作环境,既包括完成工作内容的活动空间(通常是室内空间),也包含员工在工作间隙可以自由活动的公共区域(既有室内,也有室外空间)。因此改善工作环境,可以从室内空间和室外空间两方面考虑,打造可供员工工作、休憩、交流的绿色空间。借自然之力,助力疫情下的顺利复工。

去北京投奔哥哥的张伟丽尝试过不少工作,宾馆前台、幼儿园老师、保镖,等等,即便这些工作与擂台无关,但点滴汇集成了张伟丽性格中“像水一样”的部分,而这个信条来自李小龙“Be water,my friend(像水一样吧,我的朋友)”。

在添加标签噪声的 CIFAR 中标签噪声的良好表征

疫情发生后,每次值乘,孙承泽和同事都要对车厢内各个卫生死角进行清理,忙碌近7个小时才能换班休息。“我把它当作一场紧张的战斗!”孙承泽说。

小区里的“跨界消杀员”

如果工作地点既无绿地,也难以在视野内看到绿色空间,则可以选择在室内悬挂带有自然风景或植物题材的照片、图像等。室内摆放盆栽植物,也可以利用植物精油并播放带有海浪、风声、雨声等自然元素的音乐,营造一个近自然的工作氛围。在办公的间隙,开展室内的简单肢体活动,舒缓因为久坐而疲劳的肌肉,促进血液循环,在舒适的室内绿色空间获得自然的疗愈效果。

志愿者协会成立后,王亚鑫的休班时间都花在了指挥协会分工运维和发放、联系筹备物资上,每天都从早忙到深夜。

估计给定噪声标签和潜在(未知)未损坏标签的联合分布,以充分描述类条件标签噪声 查找并删除带有标签问题的噪音示例 去除训练误差,通过估计潜在先验重新加权实例

八角笼里的“会面”确实惨烈,张伟丽170次出拳,169次命中,而乔安娜出拳达190多次,身高臂展的优势、防摔的能力都让张伟丽战得吃力,最终,张伟丽以2∶1分歧判定卫冕成功,被授予金腰带时,她的眼角被撕裂,眼睛肿成两条缝,而乔安娜额头被击起一个巨大的肿包,几乎面目全非。

雷锋网(公众号:雷锋网)雷锋网雷锋网

使用置信学习,我们可以使用任何合适的模型在任何数据集中找到标签错误。下面是常见数据集中的其他三个实际示例。

2017年7月,笼池及其妻被大阪地方检察院特搜部逮捕,后于2018年5月被保释。

蕙芷兰茝,菌桂木兰,植物的芬芳气味在久远的古代就为我们先人所喜爱并加以吟咏,他们存在于《诗经》、《离骚》的优美诗句中,也同样留存在我们的日常生活里。有着馥郁香气的盆栽植物如茉莉、栀子、水仙、桂花等依旧受到喜爱。现代医学对于植物芳香精油的深入研究也验证了其中一些挥发性物质所具有的镇静放松作用,能帮助人消除疲劳,舒畅心情,提高免疫力;芳香植物还具有净化空气,吸收有害气体的作用。利用芳香植物的药理作用进行的芳香疗法也被越来越多的人所接受并流行。

1988年出生的王亚鑫是一名退伍军人,春节期间,他牵头成立志愿者协会,并通过微信,建立了卓资青年公益志愿者协会群。群内成员很快从最初的6个人扩展为160余人。

李树华(清华大学建筑学院景观学系教授,清华大学建筑学院绿色疗法与康养景观研究中心主任,中国风景园林学会和清华大学建筑学院推荐专家)

14岁,张伟丽获得河北省青年散打冠军,此后,她进过专业队,却在准备大放异彩时因腰伤不得不退役。她向媒体回忆,“那时,我在擂台上摔倒了就站不起来,挪到边上休息很久才能起来。”告别擂台时,她17岁。

2017年,森友学园被媒体曝出以一亿日元的价格获得估价近10亿日元的国有土地,用于小学建设,而日本首相安倍晋三夫人安倍昭惠还曾担任该小学的名誉校长。后随调查深入,发现财务省有数十人参与篡改和销毁相关审批文件。安倍则强调他和妻子与此事无关。

人们的身心健康与其居住、工作的环境密切相关,阳光、新鲜的空气、以植物为代表的自然要素,可以改善环境条件,直接或间接影响人的身心状态。园艺疗法则通过利用园艺及其相关活动改善人们的身心健康。

作为目前世界上最顶级和规模最庞大的职业MMA(综合格斗)赛事,UFC的八角笼里不仅有聚光灯,也汇聚了观众挑剔的眼光。和统治过UFC女子草量级两年多的对手乔安娜相比,张伟丽显得“神秘”,但她的传奇一幕尽人皆知——去年8月底,张伟丽在深圳用42秒便击败巴西选手安德拉德,夺得金腰带,创造了中国格斗历史。

在上图中,每种方法的直线上的每个点,从左到右,描述了训练的准确性,去除了 20%、40%…、100% 的估计标签错误。黑色虚线用所有例子描述了训练时的准确性。当移除少于 100k 个训练示例时,使用 CL 在清洗过的 ImageNet 训练集上训练(不添加合成噪声),观察 ResNet 验证精度的提高。当超过 100k 个训练实例被移除时,观察使用 CL 相对于随机移除的改善,如红色虚线所示。

从上图可以看出,CL 需要两个输入:

比赛结束后,张伟丽在医院遇到乔安娜,隔着一条帘子,她听见乔安娜持续痛哭,生出一丝心疼,她试着给予安慰,却被乔安娜的一句话攻击了泪腺,“她说希望我继续卫冕下去,她会看着我,但后面的路会越来越难,加油。”在张伟丽看来,“真正的武者勇于面对失败,能够祝福战胜了自己的人。”

置信学习(CL)已成为监督学习和弱监督的一个子领域,可以被用于:

你可能对它的数学过程比较好奇,好吧,这个计数过程采用的是下面的公式:

方案二、室内引入绿色植物,以感官刺激调整身心

论文的理论和实验结果强调了置信学习的实用性,例如识别 ImageNet 和 CIFAR 中的许多标签问题,并通过在清洗过的数据集上进行训练来提高标准 ResNet 的性能。置信学习促使人们需要进一步了解数据集标签中的不确定性估计、清洗训练集和测试集的方法以及识别数据集中本体论问题和标签问题的方法。

2月6日9时许,在沈阳市苏家屯区民主街道人字路社区美杨小区,一个穿着隔离服、戴口罩的身影,正忙着喷洒消毒液。他就是沈阳客运段通勤车司机谷多绵。

比赛结束的一周,张伟丽留在美国,除了伤病恢复,赛后活动不断,她在接受中青报·中青网电话专访时透露,“时差还没倒过来”。外界对这张惊艳了综合格斗世界的东方面孔的好奇,把她的时间截成碎片,以致每个行程安排得精确到分钟。

在高噪音和高稀疏的情况下,平均来说,CL 提高了 10% 以上高噪声学习水平和 30% 以上的高稀疏学习水平。

在视线上能够接触到绿色空间被实验证明对于男性员工的压力水平降低,工作积极评价有显著作用,对于女性也显著影响其工作积极评价。因此如果有自然窗景的条件,可以酌情将窗户附近开辟为临时的公共区域。在餐后或其他休息时间眺望,接受阳光从而达到放松心情,恢复疲劳的作用。但是如果要利用城市公共绿色空间,应当尽量控制进入的人数与频次,注意与人保持一定的距离并佩戴好口罩等防护用品,返回工作场所后洗手,保持个人卫生。

置信学习是如何工作的?

出于弱监督的目的,CL 包括三个步骤:

2.工作地点无附属绿地,但能看到或到达绿色空间

“我喜欢孩子,在幼儿园当老师时遇到一个患了自闭症的孩子。”10岁的身子里住着两岁的灵魂,张伟丽每天陪着他,他也不跟人说话,“有一天,我问他‘我是谁’,他突然回答‘你是老师’。”张伟丽开始相信,“只要认真、专注去做一件事,就能做好”。

与大多数机器学习方法不同,置信学习不需要超参数。我们使用交叉验证从样本中获得预测概率。置信学习还有许多其他优点:

注意:虽然这简化了本文中使用的方法,但抓住了本质。

筑起抗击疫情的铁壁铜墙

摆放绿色植物是改造室内环境非常直接的方法,具有简易的操作性,并且植物种类丰富,不同植物在颜色、质感、气味上给人的感受差异大,对于不同的需求有很好的适应性,利用植物营造舒适的工作环境效果也较为显著。

2月18日,离比赛不到20天,张伟丽才拿到签证,她在社交媒体上表示,“现在心终于放到肚子里了,可以开始减体重了。”曾经,减重是最令张伟丽头疼的事情之一,有媒体报道,在一次减重过程中,她看到有人在板车上吃凉皮,当时眼泪就下来了,“感觉对方好幸福”。对于职业运动员而言,规范吃喝也是工作的一部分,“尤其在减重的最后两天极为难熬”。

对于来之不易的胜利,翻译比张伟丽更显激动,语无伦次了半天才转述了让全场欢呼的那句“在这个八角笼里所有人都值得尊敬,我不希望在八角笼里说垃圾话。我觉得在这个平台上都是武者,都需要相互尊重,需要给孩子们树立一个好的榜样,我们是冠军,不是暴君。”在这个90后选手看来,“别人的失败不会让我开心”。

铁路人主动靠前、“跨界”补位

这类工作场所通常是有中庭或屋顶花园的办公楼,大型产业园区,科技园区等。现阶段居家办公的情况下,住宅小区绿地也可算作此类。这些绿地基本只向企业(小区)内部开放,因此与外界接触少,人员流动可控,安全性较高。通常工作人群在午餐休息时间使用频率较高,工作时间利用率相对低。

1月26日,孙承泽在办理补票手续时,发现一名回西宁老家的旅客有过武汉旅行史。他及时上报,采取了紧急应对措施。“现在我们就是一道岗,必须要高度负责。”孙承泽说。

城市中多数工作场所无附属绿地,但其中部分位于市区公园或其他开放公共绿地的附近,或者处于高层建筑而能够俯瞰到城市绿地构成的自然类景观。

电务汉子的春运新角色

在绿色空间中休息、活动对人的身心健康有益,工作区域外的绿色空间不仅客观上能帮助员工恢复注意力,缓解疲劳。从主观态度与偏好上,人也趋向于能更好接触到室外绿色景观的工作环境。因此提高工作环境周边绿色空间的使用率,增加在步行或视线上可到达绿色空间的路径,或者仅仅是在缺乏自然窗景的工作环境中引入自然景观类图像也有利于员工维持良好的身心健康状态。

2019年3月6日,大阪地方法院对“森友学园”案举行首次公审,作为被告的笼池夫妇否认了大部分的被起诉内容。

样本外预测概率(矩阵大小:类的样本数) 噪声标签(矢量长度:示例数)

同时植物还能够提供丰富的感官刺激体验,这些感觉刺激的信号“传导至掌管自主神经系统和感情的大脑里,然后进行综合判断,信息到达运动神经系统的远处。自主神经系统中交感神经与副交感神经互相补充,控制心脏、血管、胃等的平滑肌以及内分泌腺的运动,调整体内环境的恒常性,将外部环境的变化与内部环境的要求统一起来,维持睡眠、呼吸、体温、血压、食欲等生命活动。”因此可以利用室内绿色植物的有益刺激使人体保持良好的身心状态。

张霞是成都供电段生产调度室的一名党员职工。疫情防控阻击战全面打响后,她居住的成都市青龙街道致强社区成立了党员义工队。张霞得知后,毫不犹豫就报名参加了。

2012 年 ILSVRC ImageNet 训练集中通过置信学习确定的前 32 个标签问题。标签错误用红色框表示,绿色表示本体论问题,蓝色表示多标签图像

多标签图像(蓝色):在图像中有多个标签 本体论问题(绿色):包括“是”或 “有”两种关系,在这些情况下,数据集应该包含其中一类 标签错误(红色):数据集别的类的标签比给定的类标签更适合于某个示例

原本,张伟丽的备战在北京进行。但疫情迅速蔓延,为顺利抵达美国参赛,她只能和团队转战泰国备战,“气温一下子升起来,每天训练很累,前3天喘不过气来。”好不容易适应了,疫情追至泰国,她只能从阿布扎比办理签证前往美国,这一辗转,训练场地也打了折扣,很多体能训练只能在酒店进行。“吃不惯,吃点蛋白粉,一片面包就训练,几乎一天一顿饭。”饮食、气候和没音讯的签证都在向张伟丽施压,但最令她崩溃的是倒时差带来的睡眠障碍,“眼罩不行,数绵羊不行,用刮痧板放松脑袋瓜,也不行。”每天四五个小时且频繁醒来的睡眠,让她觉得“过一晚上像过了几个月”。

多年来,谷多绵一直致力于公益事业。他利用业余时间给孤儿院、敬老院赠送自己种的蔬菜;自2008年起,他每年都到医院定期捐献血小板;2017年,他在坐火车时认识了因病致贫的小硕一家,不仅帮小硕一家在医院附近租房子,还多次为小硕一家捐款……2018年,谷多绵被沈阳市文明办授予“沈阳市身边好人”荣誉称号。

稀疏性(Q 中零的分数)概括了这样一个概念,即现实世界中的数据集,如 ImageNet,有一些类不太可能被错误地标记为其他类,例如 p(tiger,oscilloscope) ~ 0 in Q。如上表中突出显示的单元格所示,与 Mixup、MentorNet、SCE-loss 和 Co-Teaching 等最新方法相比,CL 显著增强了对稀疏性的鲁棒性。这种鲁棒性来自于直接建模 Q,即噪声和真实标签的联合分布。

在张霞的劝说下,倔强的老两口认识到了防疫的紧迫性。他们将张霞的口罩还了回去,自己折回家中取出了儿女给他们买的口罩戴上。

2019年10月30日,检方指控笼池夫妇犯有诈骗等罪行,希望法庭判处2人有期徒刑7年。

本报北京3月16日电

温馨提示:特殊时期,即使是在人群相对较少的区域活动,也请做好自身防护,切勿掉以轻心。

因此,如何化解现如今工作环境中潜在的健康威胁,创造一个更加有利于健康的工作环境,是一个需要思考的问题。

CL 通过直接估计标签噪声的联合分布,自动发现数据集中类的本体论问题。在上表中,我们显示了在我们估计单类数据集 ImageNet 的标签噪声联合分布时最大的偏离对角线。每行都列出了噪声标签、真标签、图像 id、计数和联合概率。因为这些是非对角的,所以噪声类和真类必须是不同的,但是在第 7 行中,我们看到 ImageNet 实际上有两个不同的类,它们都被称为 maillot。

哪里就有他们勇敢的身影

为了了解 CL 是如何工作的,让我们假设我们有一个包含狗、狐狸和牛的图像的数据集。CL 通过估计噪声标签和真标签的联合分布(下图右侧的 Q 矩阵)来工作。

正因为植物可以带来的嗅觉刺激,在工作场所也不妨增加一些芳香植物的盆栽。

我们鼓励阅读论文原文来理解公式中的符号,这里的中心思想是,当一个例子的预测概率大于每个类的阈值时,我们自信地认为这个例子实际上属于该阈值的类。每个类的阈值是该类中示例的平均预测概率。这种阈值形式将 PU 学习中众所周知的鲁棒性结果(Elkan&Noto,2008)推广到多类弱监督。

描述标签噪声 查找标签错误 学习噪声标签 发现本体论问题

方案一、绿色空间活动

剪枝以搜索标签错误。例如,通过损失重加权使用软剪枝,以避免迭代重标记的收敛陷阱。 对干净数据进行统计训练,避免在不完全预测概率的情况下重新加权损失(Natarajan et al.,2017),从而避免学习模型权重中的错误传播。 对训练期间使用的示例进行排序,以允许使用不规范概率或 SVM 决策边界距离进行学习。

曾经那个把印花床单围在脖子上当作斗篷的小女孩,没到30岁便立住了“女侠”的人设。

随着各地疫情防控措施陆续升级,家住高密的孙承泽不能回家了。就这样,他过起了“单身”生活,寄宿在小区外的临时住所进行自我隔离。想念家中妻儿时,他就跟家人视频通话。

“义工服务的主要内容就是小区值守、入户核查和防疫宣传。”张霞说。因为疫情,她居住的小区禁止外卖小哥进入。一天下班后,张霞听说一名业主试图通过外卖买药,但一直没能成功。她担心这名业主病重不能起床,便主动买了药送到他家里。

一个张狂,一个谦逊,基调从一开始就定下。在赛前宣传片中,拥有9场UFC冠军赛经历的乔安娜坐在红色直升机上拍下脚“踩”南佛罗里达州新地标、吉他形状硬石酒店的照片,坦言:“我知道伟丽非常强悍,但她20胜1负的战绩不能代替她赢下比赛,她还没遇到我这样的对手。”而张伟丽则在北京的训练房中,从一个红色的茶叶桶里抓出一把玻璃弹珠,摆在脚下,专注地用脚趾把它们一颗一颗夹回铁桶中。

“自从我输掉了冠军头衔后,我对于冠军的痴迷程度远远超过了我是冠军的那段日子。”乔安娜迫切希望从张伟丽手中夺回金腰带,于是从调侃新冠肺炎疫情的海报到从未间断的“垃圾话”挑衅,她一直试图激怒更年轻的对手,但张伟丽的回应像尽全力打出、却在鼻尖戛然而止的拳头,有力更有度,“拿悲剧开玩笑,体现了一个人真实品格。有人因感染新冠肺炎去世,有人的爸爸,有人的妈妈,有人的孩子(都感染了)。如果你觉得你抨击我能让你变得更强大,那你去做吧。但别拿这件事开玩笑。愿你3月7日前都健康。我很快就会和你见面。”

针对色彩对于人体影响的研究较多,并形成了色彩心理学,揭示出色彩在影响人体认知与行为上的作用。植物的叶、花、果具有丰富的色彩特征,运用植物带来独特的视觉刺激可以营造出更加舒适的工作环境。

在位于北京亦庄的12345市民热线中心,工作人员在接听热线电话(2月10日摄)。 新华社记者 鞠焕宗 摄

福州市茉莉花种植保护基地盛开的茉莉花。新华社记者 林善传 摄

通常易于获得的室内植物是盆栽、盆景、插花的形式。插花需要的鲜切花需要经常更换,但是目前商店以及线上销售渠道有限,因此更为推荐的是以盆栽的形式为办公室增加植物的气息。将家中已有的植物盆栽移至办公室中,享受绿色相伴的工作时光。

绿色:绿叶植物给人以生命力与希望的象征,在绿色植物环境下,人体有限的注意力可以得到恢复,这样有助于职工提高工作的效率,消解不利于工作的消极情绪。绿色植物因为能吸收阳光中的紫外线,减少对眼睛的刺激,因此对眼睛有保护作用。长期用眼用脑的工作者经常面对一丛绿色的盆栽,有利于消除心身疲劳。

王亚鑫首先带头捐了1000元,在他的带动下,志愿者们纷纷自发捐款、捐物。在此基础上,王亚鑫带领志愿者们与多方联系沟通,分批多次购买了了口罩、护目镜等医用防护用品。

上图显示了 CIFAR 中标签噪声联合分布的 CL 估计,标签噪声增加了 40%。观察(b)中的 CL 估计与(a)中的真实分布有多接近,以及(c)中矩阵中每个项的绝对差的低误差。概率被放大 100 倍。

他们不辞辛苦、不惧劳累

春运前夕,青岛电务段综合维修车间信号工孙承泽有了一个新“角色”——列车员,帮班值乘青岛至西宁的Z272次旅客列车。这对于一直从事电务设备检修的孙承泽而言,是个不小的考验。

在目前的工作场所中,人们的行为模式受到疾病影响而改变,例如为保证场所卫生安全而增加的消毒程序,人与人之间为避免交叉感染而减少交流等,这些变化都可能给复工人员带来更多的焦虑情绪,对人们的身心健康造成危害。

国内外都有相关研究指出室内工作环境有绿色植物对于人体的有益作用。研究表明绿叶植物可能有助于提高创造性工作的效率。引入植物后职员呼吸道、自我感觉与心理方面的不适得到缓解。也有学者结合进化心理学研究,在城市环境条件下增加原始人类生活环境的要素(阳光、绿色植物等),发现同样可能增加工作效率,维持人体的身心健康。

“我一个冠军,要折腾那么多地方去打卫冕战,有些不公平。”张伟丽透露,她向妈妈袒露过失衡的心态,“老母亲说,现在在一线工作的医护人员,觉都没有时间睡。你应该做好你的本职工作,勇往直前。别把困难当作困难,就都不是困难。”像是被敲醒,张伟丽想到每天新闻上攀升的数字,“太多负能量了,我希望能赢得比赛,给大家鼓励。”而平时扎实的训练,足以给她必胜的信心。

在如今的现代社会中,工作环境本就存在威胁健康的隐患:在工位上久坐不动,工作内容大量使用电子产品(尤其是长时间使用电脑),高强度的工作缺少休息时间,环境单调,人群密集但是缺少沟通等。这些因素容易引起人体的疲劳,增加压力水平,不仅会降低工作效率,还可能引发一系列身心健康问题。

张伟丽出生于河北邯郸一个煤矿工人的家庭,家乡的武术氛围和父母工作繁忙,让她的武侠情结有了现实场景。从6岁开始学习武术套路,到12岁进入离家30公里外的一所武校,她始终向往“像大侠一样在树林里飞来飞去”,甚至期待武校里能有一个轻功班。但现实把她“揍”到了地上,被分配到散打班的张伟丽最初每天被打到流鼻血,“为了不挨打”,她每天午休时间就戴上耳机去打沙包,坚持了两个多月,女孩们再也打不倒她。

这是张伟丽的首场卫冕战,一共有15077名观众在现场观看,门票共卖出2742906.20美元。UFC主席白大拿也表示,这场比赛之精彩堪入选UFC名人堂赛事。赢得胜利的张伟丽引爆了国内外的社交媒体,有关她的微博热门话题不到24小时就突破5亿阅读,而在推特上,她也成为热搜第三名。

2月5日,正在小区值守的张霞撞见了一对“犟夫妇”。不管大家怎么劝说,俩人出门买菜都不戴口罩。张霞见状走上前,一边和老两口拉家常、嘘寒问暖,打消二老的抵触情绪,一边将自己多余的口罩匀给了他们,并向他们耐心讲解疫情的严重性,普及防疫知识。

上表显示了 CIFAR-10 上带噪声标签的多类学习的 CL 与最新方法的比较。在高稀疏性(见下一段)和 40%、70% 的标签噪声的情况下,CL 的表现优于 Google 表现最好的 MentorNet、Co-Teaching 和 Facebook 研究院的 Mix-up,性能超过它们 30%。在使用置信学习之前,对这一基准的改进要小得多(大约只有几个百分点)。

根据现有的研究实证以及园艺疗法推广的经验,本文总结出3个适宜于应对当前工作环境的园艺疗法方案。

如今,这样的拳头为中国自由搏击打开了一扇门,尝试过其力量的乔安娜向张伟丽又邀约二番战,张伟丽向中青报·中青网记者表示,“后面还有很多人排队挑战我,不能老把机会给一个人,需要让一些新人站出来”。

CL 是在处理噪音标签的文献中制定的原则之上建立起来的:

从进化角度,人类的生理结构与心理偏好一定程度上保留着原始狩猎时代的特征,也就是所谓的亲生物性(biophilia),因此现代人类本能地也会倾向于喜爱自然环境。绿色空间所拥有的自然环境要素相比人工环境要素在人体的潜意识里更加易于识别,传达出危险的信息更少,令人感到更加放松。在绿色空间中,我们可以调动自己的五感去接触大自然细微之处的美,愉悦身心。观赏初春枝头绽放的缤纷色彩,细嗅雨后青草与鲜花的馥郁,触摸泥土与枝叶,聆听风吹树林的天籁,从繁忙紧张的工作中抽离出来,远离都市的喧嚣,在大自然的帮助下放下内心的烦恼和忧虑,重新获得平静、自信与希望。

在2013年看过一场开创UFC女子格斗先河的传奇女性隆达·罗西的比赛后,张伟丽决心参战。11月,她参加了MMA职业生涯第一场比赛,两年后,她签约昆仑决。在两年中收获15胜,她最终成为冠军,而UFC的邀请随之而来。站到安德拉德对面时,张伟丽以3场全胜的战绩排名世界第六,仅仅42秒后,她已经把历史从“中国人首次冲击UFC冠军”变为了“中国第一位UFC世界冠军”。

直接估计噪声和真标签的联合分布 适用于多类数据集 查找标签错误(错误按最有可能到最不可能的顺序排列) 是非迭代的(在 ImageNet 中查找训练标签错误需要 3 分钟) 在理论上是合理的(现实条件下准确地找到标签误差和联合分布的一致估计) 不假设标签噪声是随机均匀的(在实践中通常行不通) 只需要预测概率和噪声标签(可以使用任何模型) 不需要任何真实(保证不损坏)的标签 自然扩展到多标签数据集 作为 cleanlab Python 包,它是免费、开源的,用于描述、查找和学习标签错误

王亚鑫安排家在卓资县当地的志愿者轮班为抗击疫情工作人员做早餐和夜宵,他则带领部分志愿者开私家车分头行动,每日供应早餐或宵夜100余份。截至目前,他们发放的医疗防护用品和速食食品价值共计1万多元。

2011年,她“看上了”北京一家健身房里的擂台和器械,便决定留下来工作,“天天守着那么多器械,那么多沙包,我肯定得练。”即便没有教练,每天下班,就是张伟丽“不能放下”的时间。在这个过程中,她结识了MMA运动员吴昊天,后者把她带入了自由搏击的世界。再后来,她遇到了推广MMA的职业经理人蔡学军。

“特别痛快,火拼的感觉很美。”张伟丽晓得,因为自己没有打过五回合的比赛,因此,赛前很多人预测她会在后面两个回合体能或意志力出现问题,“但没想到我越挫越勇”。顽强得令自己意外,她坦言,“受新冠肺炎疫情影响,这次参赛过程十分波折,但也造就了我必胜的决心。”因此,她在赛后呼吁,“希望我的祖国尽快度过疫情,疫情不是中国人的事,而是全人类面临的事,希望大家共同努力一起战胜它”。

在情绪低落时,常常会有“食不知味”的感受。味觉既受到情绪的影响,反之也会因味觉的刺激而给人以精神振奋的作用。采摘香草,可以冲泡花茶,便能产生味觉治疗效果。如果担心新冠病毒是否会在植物表面附着并经过采摘的接触和食用进入人体,可以不使用新鲜植物材料,而是以干制的香草和花果来替代,泡水不仅方便快捷,也同样能起到作用,非常适宜于办公室人群。

继续我们的示例,CL 统计 100 个标记为 dog 的图像,这些图像很可能属于 dog 类,如上图左侧的 C 矩阵所示。CL 还统计了 56 幅高概率标记为 fox 的图像和 32 幅高概率标记为 cow 的图像。

理论上,论文给出了 CL(定理 2:一般的逐例稳健性)准确地发现标签错误并一致地估计噪声和真实标签的联合分布的现实条件。我们的条件允许每个例子和每个类的预测概率中有错误出现。

暖色:以红橙黄为主的暖色使人心跳加快、精神亢奋,给人以温暖、热烈的心理感受,当前冬季虽然结束,但是寒潮仍然控制着气温的回升,可以在工作场所摆放一些暖色调的植物,给疫情阴翳下的工作增加一抹亮色。

当然,室内植物摆放在注重色彩刺激的同时,也可以结合工作场所已有的装修特点,运用植物色彩调和空间主体色彩,例如在以红色等暖色为基调的空间则可以适当增加冷色系的开花植物来缓解长时间暴露于单一色彩下可能产生的视觉疲劳。

cleanlab 是一个带有标签错误的机器学习和深度学习框架,和 PyTorch 类似。在 cleanlab 文档中了解更多信息。

“女侠”在社交媒体上很活跃,她关注过话题“女生的手好看是什么体验”,也晒出过自己训练后的右手,自嘲“这哪儿像一个女人的手?”这只手算不上纤长,秃秃的指甲,每个指关节新伤叠旧创,手腕处有常年训练留下的细密褶皱,但根据UFC此前发布的智能力量检测数据,这只手的力量巨大,用沙袋测试,一分钟她打了7.57吨,平均一拳180斤。

如果不能获取到芳香植物盆栽,也可以尝试利用植物精油给工作环境营造一个充满自然气息的氛围。

张霞说,为社区防疫服务不比在单位从事专业工作,有时候不得不“婆婆嘴”一点,同时也要讲究方式方法,这样才能达到工作效果。

1.工作地点有附属绿地

世界卫生组织曾提出,“工作对心理健康有益,但消极的工作环境可能导致身心健康问题。”例如,职业压力正成为威胁健康的隐形杀手,快节奏以及激烈的行业竞争往往使都市生活的从业人员陷入“工作压力大-生活不规律-健康受损-工作效率低-压力更大”的恶性循环中。尤其是当前,疫情防控工作仍旧处于关键时期,来源于外界有关疫情的信息无形中增加了个体过滤信息的工作量,而这些信息本身也是造成焦虑的原因之一。

将联合分布矩阵乘以示例数。让我们假设我们的数据集中有 100 个示例。所以,在上图中(右边的 Q 矩阵),有 10 个标记为 dog 的图像实际上是狐狸的图像。 将 10 张标记为 dog 的图片标记为标签问题,其中属于 fox 类的可能性最大。 对矩阵中的所有非对角项重复此操作。

使用标签噪声的联合分布查找标签问题

位于上海的可口可乐全球创新及技术中心暨中国区总部园区外景。新华社记者陈建力摄

CL 基于噪声数据剪枝的原理,通过计数对噪声进行评估,并对实例进行排序以进行置信训练。在这里,我们在 Angluin 和 Laird 分类噪声的假设基础上,将 CL 泛化到直接估计给定噪声标签和无噪声标签之间的联合分布。

有关 CL 算法、理论和证明的全部内容,请阅读这篇论文。这里,我总结一下论文的主要观点。

这次赛前减重,张伟丽出现了“水中毒”。减重期间,需要大量喝水,“那天喝了七八升水,本来应该跑步出汗排水,但当天采访很多,下午训练跑不动就放弃了,后来就开始想吐,头晕,像喝醉了一样,没办法只能把房间空调开到30多摄氏度,盖上被子闷汗,想办法排水。”像是对一次“放弃”进行检讨,张伟丽强调,“想要好的成绩和数据,坚持才是最难的”。