看不见的“大象”：算法中的性别歧视

2021-11-14范红霞孙金波

新闻爱好者 2021年10期

范红霞孙金波

【摘要】随着算法的适用场景越来越广泛，各种算法推荐和算法模型日益左右着我们的认知与决策，而算法偏见和算法歧视问题也逐渐暴露出来。从算法偏见、数据库偏差和认知语言及编码歧视等角度分析算法性别歧视的表现和成因发现，算法中的性别歧视将加重对女性的物化和数字化异化，会进一步加大“数字性别鸿沟”。因此必须在伦理、法律和技术规则方面加强规制，通过算法正义，推动性别平等化。

【关键词】算法偏差;性别;歧视;数字异化;算法正义

一、技术与性别歧视

随着算法的适用场景越来越广泛，各种算法推荐和算法模型日益左右着我们的认知与决策，而算法偏见和算法歧视问题也逐渐暴露出来。人们担心因为性别、种族、年龄和身份地位等方面的歧视，会蔓延到人工智能和算法技术中，从而将现实中的偏见、不公正和不平等复制到技术领域，加重社会分化和意识形态分裂的危机。

事实上，这些担忧在某种程度上也恰恰成为现实。如卡内基梅隆大学Amit Datta等学者研究了求职者性别与招聘广告推送的关系，利用数据软件发现男性用户组收到“年薪在20万美元以上”职位推荐的数量是女性用户组的6倍。[1]另外，据路透社2018年的报道，亚马逊公司研发出来的自动招聘系统存在性别歧视的问题，该系统在对求职者的简历进行筛选时，会对女性求职者进行降级处理，而提高男性候选人的排名。[2]在当下流行的共享经济模式中，也出现了性别不平等的倾向。张凌寒通过实证研究的方式发现，像家政、代驾、保姆、外卖员这一类的工作，在传统就业模式中就存在性别不平等关系以及对工人的剥削和歧视，且在共享经济灵活就业中更得到了加强——如通过平台评级和评论系统，使得性别弱势、低收入、受教育程度低等弱势群体的弱势地位随着共享经济灵活就业的发展进一步加强。[3]

技术女性主义者认为女性被排除在技术之外，始于人类社会最初的劳动分工，女性负责采摘果实和照管婴儿、老人，而男性负责狩猎和保卫营地，从而形成了“男主外女主内”的最初性别分工。但更深刻的变化则来自于17-18世纪的工业革命和资本主义工厂的兴起。生产制造活动从家庭转移到了规模化的工厂里，男人成为工厂、矿山、铁路、农场等社会生产空间内的主要劳动力，成为操纵机器的雇佣工人;而大部分女性则留守家庭，辗转于炉灶和居室之间，公共领域和私人领域分离，导致新一轮的性别分工，这也为男性主导技术（与机器）奠定了基础。这种模式延续到互联网时代，编写代码的程序员、算法工程师和人工智能的研发者们也多是男性，而女性在这个行业中占比不到2%。因此，在这个几乎由男性“一统天下”的行业和领域中，其技术标准、评估决策、算法模型、使用规则等也就不可避免地以男性标准为中心，而社会文化和观念认知中的固有偏见和歧视也就有可能潜移默化地嵌入现有技术体系中。说到底，算法结果不过是如实反映了数据库乃至社会中真实存在的偏见。而这些偏见，恰恰与我们追求平等公正的社会理念背道而驰。

二、算法歧视与性别不平等

不同于其他类型的歧视，算法歧视问题的出现有其独特的技术背景。关于算法歧视可以归为如下几类：

（一）算法偏差

算法偏差一般指的是计算机程序或者人工智能系统在数据收集、数据选择和使用的过程中因包含了人类的隐含价值而在输出中呈现出不公平现象，算法偏差是对算法客观性的偏离。[4]算法偏差隐含在算法中，往往是隐性的，我们可以通过分析算法偏差的外部原因和特征来理解算法偏差。研究人员把算法偏差归咎为“合成谬误”和“虚假因果”[5]。由于当前人工智能技术仍然处于“弱智”阶段，无论是算法模型、数据库处理还是机器训练，在一系列的程序运作中，每一个环节都有可能出现偏差;而且，即使微观上正确的东西并不一定在宏观上都是正确的。美国著名经济学家、诺贝尔经济学奖得主保罗·萨缪尔森就曾经说过，“个人理性行为往往无法产生集体理性的结果”。算法也不例外。

（二）算法偏见

算法偏差会导致算法偏见。所谓算法偏见，主要是指算法设计者在编程时可能将自身偏见、社会风气、制度体制以及文化差异嵌入算法之中。这既可能是显性的和有意识的，也可能是隐性的和无意识的。[6]算法偏见导致的算法歧视现象广泛存在。微软和美国波士顿大学的研究人员发现在一些人工智能算法中存在性别歧视现象，如“编程”和“工程师”等词常与男性联系起来，“家庭主妇”“家务劳动”等词往往与女性联系在一起。[7]而美国学者通过对百万Uber司机收入进行分析，其结果令人惊讶：在一个工作任务由不分性别的算法决定、薪酬结构直接与产出挂钩而并不需要与资方谈判的环境中，男性做同样的工作，平均每小时比女性多赚7%。[8]算法的偏见来自程序员或者工程师编制的代码规则和所使用的数据库。这些看似客观的因素，一旦掺入人们固有的性别观念，就会让其运算结果呈现出和现实偏见同样的效果。

（三）算法滥用

算法滥用则是放任算法偏差与算法偏见存在而不加纠正，且大规模使用后产生的负面影响。它与人们的使用动机和使用效果有关。例如，人脸识别算法本意是为了精准识别罪犯，提高社会治安管理水平。但是，现在一些房地产销售门店、商超、公园和景点、单位门岗、小区门口也都装上了人脸识别系统，我们如果追问一下：用这种“刷脸进入”的方式来取代以往凭身份证件自由出入，仅仅是体验上的提升，但是在便利性上我们是否需要追求这种极致的“效率”？进而言之，当我们知道商家利用识别结果对所谓“老客”“新客”区别对待已经涉嫌歧视，侵害了个人合法权益，以及可能存在人脸信息濫用和泄露的风险时，我们还能保持淡定吗？这就是一种典型的算法滥用了。另外，有不法分子会利用换脸技术，将特定的人脸信息替换到一些色情图片或影像的面部，从而损害受害人的声誉;或者从事网络诈骗活动，这种行为已经危及到了他人和社会的公共安全。

（四）机器学习中的偏见

机器学习偏见，则是指由机器学习形成或强化的偏见。在人工智能时代，算法总是与机器学习紧密联系，算法告诉机器数据处理规则使机器按照特定步骤处理数据，而机器学习通过分析数据之间的联系，不断进行模型优化，形成成熟模型并找到最优解。[9]但是，这些算法模型也并非完美无缺，建模过程中可能因为数据偏差、学习框架、分类标准和评价指标等问题，使得这些算法模型存在一定的缺陷，在置信度、准确率和精度等方面发生误差和偏移，导致计算结果与实际情形不符，甚至对某一方来说是“不利”的结果，呈现出一定的“偏见”。

从本质上来说，机器偏见实际上投射出了根植于社会传统观念中的性别偏见。如自动招聘系统歧视女性求职者的简历;而Uber平台派单时对女性司机不公平，导致她们付出的机会成本相对高，而获得的报酬却低于男性。[10]也就是说，算法设计的效率导向、作为算法运行基础的数据之偏差与算法黑箱造成的透明度缺失共同触发了算法歧视。[11]但是算法歧视往往属于“间接歧视”。“间接歧视是指表面上看似中立的标准或做法实际上对具有某种特征的人或群体在机会和待遇方面造成不成比例的不利影响。”[12]这就意味着这些打着“技术中立”旗号的算法歧视，在现有的法律和政策制度框架下，难以找到有力证据来支持审查、识别和界定算法中的性别歧视。算法纠偏在法律规制方面还存在许多漏洞。

三、算法歧视的成因分析

（一）算法设计者的性别刻板印象或社会偏见

算法开发过程中会受到设计者主观因素的影响，如果设计者存在性别偏见、价值偏差或者缺乏性别敏感，在编码规则和指标选取上带有一定的主观倾向性，就会导致算法偏见的产生。以国内在线知识社区和付费课程平台“千聊”为例，它提供的付费知识类型包括母婴、亲子、健康、医学、养生、美容、情感、家庭、职场、人力资源等多个类目，在内容营销方面有明显的性别差异。如面向男性的内容更注重实效，且门槛较高;而女性内容则注重主观感受，以健康养生、美容护肤、情感得失为主。页面数据显示，男性课程排名靠前的是职场、金融、汽车、历史和科技等“硬货”知识，而女性课程排名前10位的则是产后塑形、瑜伽、护肤、美容、仪态以及职场穿搭等“软”知识。这似乎在暗示：同样是上班，男性更“专业”，而女性就有点“不务正业”，被有意无意地赋予了“花瓶”的属性。作为一种营销策略，“千聊”也许是成功的。但是就其算法模型和算法逻辑而言，无论是使用基于用户身份还是信息要素的协同过滤算法，或是回归分析，其所定义的用户标签或者说用户画像策略，都带有性别刻板印象的倾向。这就构成了一种带有知识权力色彩的算法偏见。

（二）数据集中的“幸存者偏差”和镜像效应

“幸存者偏差”在心理学和统计学中都是一个被反复提及的名词。它是指在统计分析的过程中，只计算经过特殊筛选而产生的那一部分样本，而主观地忽略了样本筛选的整个过程，进而造成统计中关键因素流失，导致研究成果不精确甚至相反。[13]在算法开发和使用过程中，算法设计者很有可能只看到数据统计的结果，而忽视了因为数据挖掘过程中遗漏有效数据或者关键数据导致的偏差;或使用了带有偏见的数据集，而导致算法结果偏离了客观事实。

如果将对用户的身份识别挪移到其他场景中，如图像识别、语音识别或就业招聘时，性别歧视的潜在影响就会暴露出来。如果给机器学习的训练样本中是带有性别刻板印象的人类语言文本时，其中潜藏的性别歧视难免被纳入关联逻辑中来。如给予算法大量文字或图片包进行训练，描绘女性在家做家务，男性在外工作，那么机器通过学习识别这些照片及其文字标签，就会默认“女性是家庭主妇，男人是经济支柱”这样的分工模式。通过机器学习，社会性别偏见和固有歧视被算法以代码形式重新包装打扮，进一步放大或植入新的社会偏见，无形中让女性的利益受损，这势必会进一步加劇社会既有的性别歧视和就业不公，甚至会出现更严重的性别剥削问题。

（三）算法黑箱与“房间里的大象”

黑箱是一个隐喻，指的是那种难以为人所知，“既不能打开，又不能从外部直接观察其内部状态的系统”[14]。“算法黑箱”也属于技术黑箱的一种，它指的是算法设计者运用不透明的程序将数据输入转换为信息输出。由于本身具有的高度技术复杂性和专业性，就算法的运行流程来说，整个过程涉及庞杂的数据材料和繁复的算法方法，并以计算机代码的形式呈现，而不是能够被大多数人所理解的自然语言。这意味着除了少数算法研发人员之外，更多的外部人员并不清楚算法的设计理念与目标，也无从获悉数据。[15]因此，即使在这个过程中出现运算或结果上的偏差，也不为外人所知。

研究人员从性别角度指出，如果性别偏见被人编入算法，就会使媒介传播中被发掘的“男性凝视”在算法当中进一步发展为“编码凝视”[16]，从而让算法也转化为具有性别偏见的算法歧视。例如全球最大在线求职平台领英（Linkedln）给男性求职用户推荐的高薪工作比女性多，从而使女性在最初求职时就处于劣势地位。在这里，算法推荐就成了“算法黑箱”，因为用户并不清楚它为什么会呈现“男女有别”的结果，而只会默认信息搜索的结果。

在日趋精准的算法技术下，被视为“用户”和“流量”的社会个体在大数据面前成为“透明人”和“工具人”。被数字化异化的自我是无法真正获得幸福感和安全感的。对于女性来说，“数字化异化”的更严重后果是：在所谓数字化赋权的口号下，女性正在被算法推荐和流行审美变成高度同质化的“空心人”。我们从美颜技术和“网红脸”的流行中就可见一斑。

关于算法中的性别歧视，还有另一个社会性原因，我把它叫作“房间里的大象”，意思是指那些显而易见却被人有意忽略，或者拒绝谈论的现象。“简单来说，就是我们明明知道某件事是不合理并且确实存在的，但是却因为各种各样的原因对其不约而同地选择了合谋性的沉默。”[17]比如性别偏见和性别歧视，明明是社会中普遍存在的问题，但是我们却在男女平等、“客观中立”的幌子下对其避而不谈，以至于当人们认知观念中的性别偏见“迁移”和“复制”到算法推送和人工智能领域时，我们依然对此无所察觉，将其视为寻常。前述共享经济平台在灵活就业中的性别歧视，导致女性在兼职工作中的合法权益受到压缩，就是一个现实的例子。由于网络劳动通常是在所谓“匿名化”政策下进行的，而且没有面对面的交流，很难获得一手的证据。而现阶段法院认定性别歧视造成的损害结果标准又极为严苛，导致许多职场性别歧视案件最终以劳动纠纷而非侵权纠纷的名义解决。[18]

四、结语

综上所述，算法中的性别歧视，会进一步加大“数字性别鸿沟”，同时放大歧视的社会影响。对此，一方面，我们需要鼓励女性进入技术领域，提高技术编码中的性别敏感度，改变互联网和人工智能行业由男性垄断的局面;另一方面，我们也要从技术、伦理、法律等多个现实角度来消除和预防在算法和人工智能领域的歧视。从社会认知到技术人文层面，通过人为干预、预防和纠偏，提高算法的透明度，消除算法应用中的不公平现象、歧视性或者偏见的效果，实现对所有性别的人“机会均等”，为推动性别的和谐发展作出贡献。

[本文为国家社科基金项目“中国影视海外传播塑造国家形象研究”（编号：20CXW010）;国家社科基金项目“人类命运共同体理念与全球传播秩序重建研究”阶段性成果（编号：18BXW062）;杭州市哲社规划课题重点项目“数据新闻：从内容创新到算法革命”阶段性成果（编号：2019JD55）]

参考文献：

[1]邹开亮，王霞.大数据算法背景下就业歧视规制初探[J].价格理论与实践，2020（6）：37-42.

[2]Meyer，D.2018.Amazon Reportedly Killed an AI Recruitment System Because It Couldnt Stop the Tool form Discriminating Against Women. October 10， http：//fortune.com/2018/10/10/amazon-ai-recruitment-bias-women-sexist/.

[3]張凌寒.共享经济平台用工中的性别不平等及其法律应对[J].苏州大学学报（哲学社会科学版），2021（1）：84-94.

[4]闫坤如.人工智能的算法偏差及其规避[J].江海学刊，2020（5）：141-146.

[5]时盛杰.算法传播中偏差与偏见：再析算法偏见[J].科技传播，2021（7）：140-142.

[6]刘友华.算法偏见及其规制路径研究[J].法学杂志，2019（6）：55-66.

[7]闫坤如.人工智能的算法偏差及其规避[J].江海学刊，2020（5）：141-146.

[8]Cook C，Diamond R，Hall J，et al.The Gender Earnings Gap In The Gig Economy：Evidence From Over a Million Rideshare Drivers [R].National Bureau of Economic Research，2018.

[9]刘友华.算法偏见及其规制路径研究[J].法学杂志，2019（6）：55-66.

[10]张凌寒.共享经济平台用工中的性别不平等及其法律应对[J].苏州大学学报（哲学社会科学版），2021（1）：84-94.

[11]崔靖梓.算法歧视挑战下平等权保护的危机与应对[J].法律科学（西北政法大学学报），2019（3）：29-42.

[12]郭延军.美国就业领域间接性别歧视的法律控制[J].政治与法律，2013（4）：23-33.

[13]宋亮亮.幸存者偏差理论下的传播学研究反思[J].戏剧之家，2015（24）：263.

[14]陶迎春.技术中的知识问题：技术黑箱[J].科协论坛（下半月），2008（7）：54-55.

[15]谭九生，范晓韵.算法“黑箱”的成因、风险及其治理[J].湖南科技大学学报（社会科学版），2020（6）：92-99.

[16]宋素红，王跃祺，常何秋子.算法性别歧视的形成逻辑及多元化治理[J].当代传播，2020（5）：95-100.

[17]季晓菲.从《房间里的大象》浅谈社会中的沉默现象[J].新闻传播，2020（11）：30-31.

[18]张凌寒.共享经济平台用工中的性别不平等及其法律应对[J].苏州大学学报（哲学社会科学版），2021（1）：84-94.

（范红霞为浙大城市学院传媒与人文学院副教授;孙金波为浙大城市学院外国语学院副教授）

编校：赵亮