当前位置: 网站首页 > 法律法规 > > 文章 当前位置: 法律法规 > 文章

算法的进化:机器会引发战争吗?

时间:2021-07-21 09:14:21    点击: 50次    来源:法律在线    作者:张曼雨 - 小 + 大

算法本来以为我会喜欢《摇滚万岁》,但事实上我不喜欢,从这个过程中它获取到了重要的新信息。屏幕上的影片又一次进行了重新排列,并且此次调整的幅度非常大。这是因为系统后台的算法程序发生了微妙的改变—它根据我此次的选择学到了更多的“新知识”,并微调了推荐系统的模型参数。它判断我可能喜欢《摇滚万岁》这部影片的概率过高,所以通过修正特定的参数来降低其值。虽然此前它从别的既喜欢韦斯·安德森又喜欢《曼哈顿》的那部分影迷处得知,他们也喜欢《摇滚万岁》这部电影,但这一条并不适用于我。

正是这种人机交互给算法提供了持续学习的新数据,使它可以不断进行自我调整以适配我们的喜好。在当今社会,这些算法在我们做出各种抉择时发挥了巨大作用:选择电影、音乐、书籍,甚至伴侣,等等。

如果你喜欢……

电影推荐系统的算法原理比较简单。假定你喜欢电影A、B和C,而另一个用户也喜欢它们,但他还喜欢电影D,那么,D极有可能也是你所喜欢的。当然,现实中数据之间的逻辑关系并非如此简单。你喜欢电影A、B和C是因为这些影片里有你最喜欢的某位演员,但他并没有出演D这部电影。而另一个用户之所以喜欢A、B、C、D四部电影,是因为它们都是惊险刺激的间谍电影。

算法通过查看你所提供的信息,分析出你喜欢某类电影的原因,进而会把你和那些曾经做出过相同选择的人匹配、关联到一起。算法需要在大量的初始数据样本基础上展开工作,这一点跟许多机器学习算法是相同的。机器学习的一个重要特点是,人类必须参与到数据的分类过程中,以便让机器知道它所看到的到底是什么。这种管理数据的行为为算法提取潜在信息的模式做好了提前准备。

算法在用户浏览影片库的行为过程中拾取关键特征值,如浪漫爱情喜剧、科幻片,或者是某位演员、某位导演的作品。但是,这种方法并不理想。首先,非常耗时;其次,分类的过程存在不客观因素,计算机最终学会的是已知的知识,而不能发现新的潜在趋势,从而导致计算机形成拟人态的思维定式。从最原始的数据中学习并发现模式是训练算法最好的方式。

大家都知道,Netflix公司是一家会员订阅制的流媒体播放平台,开发出自己的电影推荐系统后,在2006年举办了奈飞大奖赛,期望通过竞争来发掘最优的算法。当时,Netflix已经积累了大量的电影评级数据,评分等级分为1~5星。于是,它公开了一个包含100 480 507个元素的电影评级训练集合,这些元素取自480 189个用户对17 770部电影的评价。然后,Netflix将17 770部电影的名称替换为数字序号,即变为匿名状态。比如,2666代表的可能是《银翼杀手》,也可能是《安妮·霍尔》,或其他任何一部影片。只有用户给这部电影的评分是已知的。

同时,Netflix还公布了一个包含2 817 131个元素的测试集合。测试集合的用户对电影所做的评价是未知的,因此参赛队提交的算法必须预测测试集合中所有的元素所对应的评价等级。比如,根据已有的数据预测出用户234654对2666这部影片的评价等级。重赏之下必有勇夫,公司宣布设立100万美元奖金作为奖励,获奖条件是:以推荐效率提高10%的优势击败Netflix的自有算法。附加条件是:获胜者必须公开自己的算法并授予公司非排他性的许可,让Netflix有权使用这个算法向用户推荐电影。

除了100万美元的终极奖项,大赛还设立了几个进步奖:将上一年度成绩最好的推荐算法的效率提高至少1%的团队,将获得进步奖50 000美元。该奖项每年度都会有,但领取奖金的前提条件依然是需要公开算法的代码。

可能你会觉得从这样的数据里得不到有价值的信息,因为你甚至不知道2666所代表的影片是喜剧片还是科幻片。事实上,原始数据所蕴含的信息远比我们想象的要多。假设我们将每部电影视为一个维度,所有影片就构成了一个17 770维度的空间,那么每个用户就可以被看作这个17 770维空间中的一个点。每一部电影对应一个维度,用户对影片的评价越高,那么在该维度上此点偏离原点的距离就越远。当然,除非你是一个数学家,不然把用户看作17 770维空间中的点是很难想象的。实际上,我们可以把高维空间看作三维空间的扩展。假定只有3部影片被评级,我们可以用图形化的方式将用户与影片评级的关系表示出来。

上一篇:法学园地 ▏民法典重点法条类案裁判规则系列102:关于保证期间的相关裁判规

下一篇:深入学习贯彻党的十九届四中全会精神坚持和完善人民代表大会制度这一根本

热门标签
Copyright © 2002-2017 法度网 版权所有