【名师观点】王茜: 算法技术的盲区与智媒时代的数据伦理困境
在智能媒体时代,数据正成为新闻内容生产与内容研究的重心,大数据正在成为重要的社会资源。大数据时代需要更多的学科交叉方法,因而传播学者需要应用算法技巧与分析方法来研究宏大的网络媒介内容的数据库,这种方法对社交媒体的内容分析而言更不可或缺。在大数据研究和算法技术的研究中,机器学习手段的出现给传播学以及相关学科的研究者以及新闻业从业者带来新的方法,但同时也给传统的内容分析法带来新的挑战。基于算法分析的计算型数据分析法迎合了大数据时代的挑战,快速便捷且分析量大,然而会丢失很多媒介语境中深层的含义,也无法挖掘语言和文字中的丰富性、复杂性以及内涵的微妙之处,对于媒介内容的研究仅仅依赖大数据计算分析会产生偏差。因此大数据与智能媒体时代依然需要计算机自动分析与传统人工相结合的研究方法。
另一个值得警惕的现象是,在浩瀚的网络中我们所获得大数据集不是客观的,智能媒介时代大数据都来源于有关于人类本身以及人类行为,展现的是人类如何生活的一些合集,然而这不代表整体。这些数据本身也不是中立的,使用者所依赖的算法其实也不能解释它们。在社会科学领域,我们经常看到一些大数据背后解释的人类行为与故事,通常它们是不完整的,不确定的,甚至不具备科学性的。算法和我们通过网络爬取的大数据其实并不如我们所想象的客观,相反带有很强的主观性。
与数据伦理相关主题包括,我们在获得大数据进行科研或者新闻报道的同时,应该如何避免对网络的使用带来隐私泄露与伤害。Facebook中的数据泄露事件已经给了我们足够的教训与启发,这对于社交媒体以及大数据时代带来的数据伦理与算法道德困境有着重要的启示意义。这个技术景观中最大的变化特征是成本,随着数据库变得越来越大,算法技术不断更新,技术侵入隐私的成本已经大大减少。在数据获得过程中,从主体获得知情同意变得越来越难。越来越多的人在研究社交媒体社区时,采用了参与式观察,网络民族志,或者数字人类学田野调查的新型研究方法。这里的伦理困境是被很多人忽视的,当社会科学家或新闻工作者在网上观察和研究社区以及社群互动时,他们进行观察以及与他人交谈的事实可能会破坏社区和安全感。
当社会科学与新闻结合在一起时,大数据的结果呈现也会形成研究伦理面临的重要挑战。例如,大数据研究对少数族裔人口和社会边缘人群可能产生的影响是不可忽视的,研究者可以使用大数据分析产生最好的误导以及最坏的统计数据。最后,大数据相关研究带来的伦理挑战是,在研究者收集各类智能媒介数据同时会暴露用户个人的数据,那么对于使用其他人收集的次级数据库中相关人类行为数据的社会科学家和新闻记者而言,他们是否必须获得第二次知情同意才能进行研究,这个问题仍然是悬而未决的伦理困境。
作者简介:
王茜,新闻与传播系教师,新媒体全英文专业主任,太阳集团tyc5997健康传播研究中心主任。清华大学本硕,美国普度大学传播学博士。上海市“浦江人才”、上海市“晨光学者”、太阳集团tyc5997“晨星学者”、曾获太阳集团tyc5997“教学新秀”奖、“教书育人”奖、教学竞赛二等奖等。曾在《Asian Journal of Communication》、《现代传播》等国内外期刊上发表研究成果,著有《Doctor-Patient Communication and Patient Satisfaction: A Cross-Cultural Comparative Study between China and the U.S》、《健康传播视角下的控烟教育理论与实践研究》等系列中英文专著。研究方向:健康传播、跨文化传播、社交媒体与新媒体研究等。