一些传统的训练方法确实在真实世界的测试中提供了人类反馈,但是仅仅是为了更新系统的行为动作。这些方法不能识别人工智能系统的盲点。 而这种新提出的模型首先将人工智能系统置于模拟训练中,人工智能系统将产生一些“策略”,将每种情况都映射到它在模拟中能采取的最佳行动。然后该系统将被设置到现实世界中,当系统行为错误时人类将发出提醒信号。
[本文来自:www.11jj.com]
人类可以通过多种方式提供数据,例如通过“演示”和“修正”。在演示中,人类像在现实世界中那样行动,系统对其进行观察,并将人类的行为和在这种情况下系统将采取的行为进行比较。以无人驾驶汽车为例,如果汽车的计划路线偏离了人类的意愿,人类会手动控制汽车,这时系统就会发出信号。通过观察人类行为相符或不相符的行为,为系统指出了哪些行为是可接受的,哪些行为是不可接受的。
同时人类还可以对系统进行修正,当系统在现实世界中工作时,人类可以对其进行监控。司机可以坐在驾驶座上,而自动驾驶汽车则沿着计划的路线行驶。如果汽车的行驶是正确的,人类不进行干预。如果汽车的行驶不正确,人类可能会重新控制车辆,这时系统就会发出信号,表明在这种特定情况下汽车采取了不当的行为。
一旦汇集了来自人类的反馈数据,系统就能构建出一个各类情况数据库。单个情况可以接收许多不同的信号,也就是说每种状况可能有多个标签表示该行为是可接受的和不可接受的。例如,一辆自动驾驶汽车可能已经在一辆大车旁边开过了许多次而且没有减速和停车,这是被认可的。但是某次对系统来说和大车完全一样的救护车驶来时,自动驾驶汽车也没有减速或者做出规避动作,此时它就会收到一个反馈信号:系统的行为不恰当。
此刻,该系统已经从人类那里得到了多个相互矛盾的信号:有时它从大车旁边不减速开过去,是可以的;而在相同情况下,只是大车换成了救护车,不减速开过去就不对。这时系统就会注意到它错了,但是它还不知道为什么错,在收集了所有这些看起来相互矛盾的信号后,下一步就是整合信息并提出问题:当收到这些混合信号时,犯下错误的可能性有多大。
大家好,小娟今天来为大家解答怎样快速学日语以下问题,如何快速学好日语很多人还不知道,现在让我们一起来看看吧!1、参加日语培训班是学习
人人好,我是大四班的杨佳欣,今天给人人分享一本绘本《夏日的雨》。从乌云密布到暴风咆哮、电闪雷鸣;从大雨倾盆到雨过晴和、风和日丽....
大家好,小伟今天来为大家解答我的世界红石中继器有什么用以下问题,我的世界里面红石中继器怎么用很多人还不知道,现在让我们一起来看看吧
大家好,小乐今天来为大家解答慢性盆腔炎怎么治疗才能彻底以下问题,慢性盆腔炎怎么治疗才能彻底不复发很多人还不知道,现在让我们一起来看
大家好,小丽今天来为大家解答碧波万顷的意思是什么以下问题,三潭印月的意思很多人还不知道,现在让我们一起来看看吧!1、“碧波万顷”的意
大家好,小豪今天来为大家解答新买的铁锅第一次怎么处理以下问题,新买的铁锅怎么处理很多人还不知道,现在让我们一起来看看吧!1、先把新铁
大家好,小美今天来为大家解答上海站和上海虹桥站什么区别以下问题,上海站和上海虹桥站是一个地方吗很多人还不知道,现在让我们一起来看看
Copyright 2024.依依自媒体,让大家了解更多图文资讯!