导语:算法公平性是一个复杂的问题,有多种互相冲突的评价角度,采纳不同角度得到的结论往往不一样,也具有不同的短期和长期影响。无论选择哪种公平性准则都会有其不公平的一面。
随着平台经济的全面深入发展,基于大数据和人工智能的算法服务日益渗透到我们的日常生活和社会运转之中,关于人的衣食住行、言论传播、就业失业等方方面面的重要决定越来越多由算法作出。算法正在成为社会治理的核心,拥有超级权力,随之而来的算法歧视、大数据杀熟等问题备受关注。例如,暨南大学研究者通过研究网贷平台“人人贷”2012年3月至2014年12月期间的170817笔订单,发现在控制了其他因素的条件下:(1)女性借款人的违约率(即不按时偿还借款的比例)相比男性低38%;(2)借款人性别与借款通过率的关系不显著。按照传统逻辑,借款人违约率低,应该在借款通过率上有更显著的优势。而女性违约率低于男性,在借款通过率上却没有优势,这说明存在对女性借款人的隐性歧视。再如,复旦大学研究者发布的《2020打车报告》,他们在五座城市打了800多趟车,发现了“苹果税”,即同样一键呼叫经济型 舒适型(定价比经济型更高)两档车辆后,苹果手机用户更容易被舒适型车辆司机接单,比例是非苹果手机用户的3倍。
算法歧视、大数据杀熟等问题都涉及算法公平性。2021年11月正式生效的《个人信息保护法》对算法公平性有明确的规定:“个人信息处理者利用个人信息进行自动化决策,应当保证决策的透明度和结果公平、公正,不得对个人在交易价格等交易条件上实行不合理的差别待遇。”可见算法透明度被视为增强算法公平性的重要途径。2022年3月1日,国家网信办、工信部、公安部、市场监管总局四部门联合发布的《互联网信息服务算法推荐管理规定》正式生效,要求算法推荐服务者对算法进行备案,以适当方式公示算法推荐服务的基本原理、目的意图和主要运行机制等。2022年4月8日至2022年12月初,中央网信办牵头开展“清朗·2022年算法综合治理”专项行动,其中一项重要目标是推动《互联网信息服务算法推荐管理规定》的落实,督促整改算法不合理应用带来的信息茧房、算法歧视、大数据杀熟等影响网民生产生活的问题,切实维护好网民合法权益。
若要切实解决算法不合理应用带来的算法歧视、大数据杀熟等问题,需要深入了解什么是算法公平性。算法公平性是一个复杂的问题,有多种互相冲突的评价角度,采纳不同角度得到的结论往往不一样,也具有不同的短期和长期影响。我们通过两个简化的示例进行说明。
首先,以金融科技平台上个人贷款发放的性别差异为例。为了简化起见,我们仅关注贷款通过率的性别差异。假设如下建立通过/不通过贷款的算法:根据关于贷款申请者个人特征以及贷款是否违约的历史数据,建立统计模型来预测每个人的违约概率,并设立阈值,如果预测违约概率小于阈值就通过贷款申请,否则不予通过。假设根据历史数据,在控制了其他因素的条件下,女性违约率低于男性。
我们讨论四种评价算法公平性的角度。
角度一:在设计算法时不允许使用性别作为输入。表面上看起来这样做避免了基于性别施行贷款通过决策的差异化,但这存在两个问题。第一,有一些与性别相关性比较高的其他输入变量会在算法中占有更大权重。判断哪些输入变量是性别的不合理替代,哪些输入变量是可接受的,具有模糊的边界。第二,设计算法时不加入性别将影响算法对违约概率的预测准确性,使更多实际违约风险高的人获得贷款,而更多实际违约风险低的人无法获得贷款。这会增加整个贷款系统的金融风险,带来较大社会成本。
角度二:人口统计均等,要求男性申请人中获得贷款的比例和女性申请人中获得贷款的比例相等。类似于前面“人人贷”研究的结论,这种做法对女性形成了隐性歧视。这种做法也会使更多实际违约风险高的人获得贷款,而更多实际违约风险低的人无法获得贷款,增加金融风险。另一方面,长期来说,一些违约风险高的男性本来不应该获得贷款,但因为需要满足这样的公平原则而获得贷款,之后无法按时偿还,会降低他们未来的信用积分,反而不利于他们未来的借贷,有损公平性。
角度三:机会均等,要求实际会按时还款的男性中获得贷款的比例和实际会按时还款的女性中获得贷款的比例相等。因为人群中女性违约率低于男性,从而女性按时还款的比例高于男性,这种做法会使女性的贷款通过率高于男性;而且,会出现在其他输入变量相同的情况下男性无法获得贷款而女性能够获得贷款的情形。这又形成了另外一种不公平。另一方面,长期来说,男性获得贷款的机会更少,更无法通过贷款来改善自己的生活,可能以后更加不容易获得贷款。这会加剧贷款通过率的性别差异。
角度四:预测均等,要求获得贷款的男性中违约率和获得贷款的女性中违约率相等。机会均等着眼于实际会按时还款的借款人能获得的贷款机会,而预测均等着眼于贷款通过决策带来的违约率,通常两者不等价。因为女性违约率低于男性,要求预测均等也会使女性中获得贷款的比例高于男性,其影响与机会均等角度的影响类似。
前面提到,在设计的算法中,如果预测违约概率小于阈值就通过贷款申请,否则不通过。对男性、女性采用同样的阈值看起来满足一定公平性,但其结果往往不满足人口统计均等、机会均等或预测均等。反过来,为了达到人口统计均等、机会均等或预测均等,需要为男性和女性设立不同的阈值,这又形成了另外一种不公平。
究竟选择哪种公平性需要进行价值判断。以网约车平台上派单规则的公平性为例。网约车平台在乘客和司机(车)之间进行匹配,其派单规则既涉及对乘客的公平性,也涉及对司机的公平性。
假想如下简单情境:有经济型和舒适型两档车辆;乘客甲和乘客乙有同样的出发地和目的地,乘客甲呼叫了经济型车辆,乘客乙呼叫了经济型 舒适型车辆,乘客乙更早发起呼叫。
考虑两种派单规则。一种规则是先到先得,乘客乙先呼叫,因而先给其派车,因为经济型比舒适型车便宜,所以给其派经济型车。这种规则看起来具有最朴素的公平性,但结果是乘客甲因为选择有限需要等待,而开舒适型车的司机无法获得乘客。另一种规则是最大化匹配,将舒适型车派给乘客乙而将经济型车派给乘客甲,这样两位乘客都不用等待,而两位司机也都载上了客。但明显这种规则对于乘客乙有些不公平,他先呼叫,却被派了价格更高的车。到底哪种规则总体来说更公平,也需要进行价值判断。
总而言之,算法公平性是一个复杂的问题,需要在各种应用场景中进行细致的考量,无论选择哪种公平性准则都会有其不公平的一面,选择公平性准则时不可避免地需要进行价值判断。这种复杂性给实现算法公平带来很大挑战,不同利益相关方有不同诉求。在某些情况下,平台的盈利诉求和算法公平性准则吻合,例如在金融科技平台上发放贷款时使用机会均等准则、或在网约车平台上使用最大化匹配规则。但平台的盈利诉求又会和其他算法公平性准则冲突。类似地,消费者或服务者(如司机)的诉求也会与算法公平性准则有时吻合、有时相悖。长期而言,实现算法相对公平需要各利益相关方和监管者进行多轮全面沟通,达成兼顾不同算法公平性准则的妥协方案。短期而言,建议平台在算法备案时披露其采用的公平性准则及理由,建议政府部门在算法综合治理的过程中不要基于单一的公平性准则来判断。
作者 :张俊妮 北京大学国家发展研究院副教授、美国哈佛大学统计学博士
本文来源:中新经纬