「体育科普文」详解足球数据是如何被写手滥用的(一)

国内足坛新视角    05-23 23:59

前言:这两年,足球数据在国内得到了重视,可数据知识的普及面不够,间接造成了写手们的滥用;在头条这个平台,多少人为了拿奖,用数据来堆砌、填充文章......趁着中超尚未开赛,还是想用近五年从事足球数据工作的经验,和大家聊一聊。

我想说,肤浅的数据统计,永远无法充分解释比赛的复杂性。

以总数、平均值、百分比等形式呈现的数据,和足球赛本身具有差不多长的历史。它代表着对比赛过程的粗略描述,是赛事年鉴中的突出条目。然而对于将其作为通用语的观众和记录员来说,个人数据却已发展到喧宾夺主的地步。它背离了浓缩球员贡献的本意,摇身一变成为衡量其价值的权威标准。

「体育科普文」详解足球数据是如何被写手滥用的(一)

数据只是参考,评价球员还需要掌握具体的比赛背景

这是一种不靠谱的精确:赛场上激动人心的表演被迫沦为缺乏背景的数字。而许多现实因素是无法计量的,其中既包括场面局势、判罚警告等客观有形因素,也包括美观、冲劲、灵感、优雅、决心、领导力、镇定、性格等主观无形因素。尽管这些因素往往令足球运动充满浪漫色彩,涌现出大跌眼镜的表演和流芳百世的传奇球星,但悲哀之处在于人们关注的焦点还是数据。

总体而言,在将团体运动的定性行为转化成定量数据的过程中,有两条信息被滤掉了。第一条信息比较重要,即事件的影响力。简单来说,一切进球、积分和连胜都不是被平等创造的,其价值由于三样因素的存在有所区分:一是某个进球对某场比赛的影响(是否关键球),二是某场比赛在赛事全局中的重要性(是否焦点战),三是被进球一方的实力水平(是否为强敌)。

想想这该多么符合实际情况。进球是足球运动的硬通货,是每场比赛最纯朴的胜负手。虽然每粒进球都被平等地统计,其重要性却不尽相同:补时阶段打破僵局的绝杀非同凡响,其意义远胜过锦上添花或者崩盘情况下的安慰球。

「体育科普文」详解足球数据是如何被写手滥用的(一)

伊瓜因为阿根廷出战67场进31球,但关键时刻掉链子的毛病影响了人们对他的评价

正如进球是决定比赛胜负的基础元素那样,比赛也是确定冠军归属的基本单位。无论是跨越整季的联赛和杯赛,还是只踢一个月的世界杯皆同此理。在国内联赛角逐中,某场比赛的名义价值是固定的,实际价值却是可变的:一场在赛季高潮阶段上演的榜首大战永远比赛季初期另一场不起眼的交手重要得多。在杯赛中,从为出线权而战的小组赛直到全力以赴摘取桂冠的决赛,其价值伴随一轮轮的晋级和淘汰逐渐提升。

即便某粒进球诞生于某项重大赛事的某场焦点战中,其价值也需根据难易程度加以区分。假如获胜方是以豪华阵容完虐无力抵抗的对手,那么该进球的价值就得打个折扣;另一方面,如果此球帮助本队力克争冠路上的强敌,则其价值应当获得升华。

但现如今遍地都是抽象的总进球数排行,把某段时期的全部进球简单地统计制表,丝毫不考虑这些影响因素。譬如说,某场6比0屠杀中的帽子戏法,当真就比1比0险胜中的一剑封喉更有价值(甭管进几个球,简单累加的算法本来就很粗糙)?

仔细想想吧,千万要记住无论赛制是相同场次比积分(联赛和杯赛的小组阶段),还是一场两场定胜负(各项杯赛的淘汰阶段),冠军都不是由全部比赛的总净胜球数决定的,而是取决于每一场比赛的净胜情况。

「体育科普文」详解足球数据是如何被写手滥用的(一)

为什么大家叫保利尼奥大腿 而认为塔利斯卡只是锦上添花的任务?

没错,人人都晓得数字不会撒谎。但是当无背景的进球统计被用作球员价值的精确代表,甚至被拿来推测其未来表现(统计学的行话叫“归纳推理”)的时候,却是把所有进球均匀分布作为前提的。不管进球的重要程度,也不问是什么比赛,也不看对手啥水平,全都一刀切。这种基本预设在职业体育的高压现实中根本站不住脚,例行公事的处理往往造成统计学上的谬论。

大体上讲,球员每周的表现起伏可以用自然变化规律解释,而长达数月或在整届杯赛中的进球荒也可归咎于偶然的状态滑坡——尽管这滑坡可能持续整个赛季或者好几届大赛,但终归还是要返回正常水准。不过对于一类特殊的球员来说,他们身上具有某种惯性:容易在关键时刻掉链子。

紧要关头发挥欠佳基本是出于两方面的不足:第一乃客观物质方面,譬如技艺不精,只够虐虐弱旅,一碰强敌就原形毕露。这类“欺软怕硬”的球员往往打前者风光无限,对付后者便颗粒无收。第二——冒着诽谤全体心理学爱好者的风险——乃精神意志方面,从心理上被大场面压垮了。狂乱的气氛和耀眼的灯光让某些球员丧失了日常训练和比赛中的习惯表现,他们又常常矫枉过正,造成包袱沉重或者在机会来临时想得太多,反而使局面恶化。

从行为到数据的转化过程中,另一条被滤掉的信息是项目特点。通常情况下,某项运动进行得越是缓慢、离散,数据统计就越能完整体现比赛情况。

不妨从两方面进行阐述。首先,分工离散的项目强调个体对抗,因此可以孤立采集每位选手的数据,方便评估。而整体连续的项目需要更多配合,强调团队内部的协作。其次,离散项目招式简单、套路清楚,不像整体项目那般变化多端。每次比赛的技术统计经过长期积累后形成巨大样本,在评估个人表现方面更加可靠。

以分工最离散的两项运动——棒球和板球为例,它们都包含击球员和投手之间的个体对决。在这两项运动中,选手的数据输出大抵能够反映他对球队的贡献。例如,棒球赛中主攻的击球员动作一板一眼,发挥好坏完全通过基本进攻指标(一垒安打、二垒安打等)得到体现,板球赛中也有相应的投球手负责让击球员出局。从行为到数据的转化过程中信息损失很少,是这两项流畅性较差的运动及其技术统计被普遍认可的原因。

「体育科普文」详解足球数据是如何被写手滥用的(一)

板球运动

篮球、橄榄球等允许用手控球的运动,流畅性位居中游。由于双手是人体最灵巧的部位,持球一方犹如大权在握,所以要引入24秒进攻时限、触地得分等规则来平衡攻防机会。道高一尺魔高一丈,老江湖们又设计出定点投篮、预先跑位等精确打击战术。结果,对于篮球和橄榄球比赛不光要统计得分和触地得分数据,还要记录篮板与助攻数、传球成功数与推进码数。

禁止用手的足球和曲棍球是流畅性最佳的运动。此类运动需用不熟练部位(双脚)或借助外物(球杆)控球,因此不容易保持球权,场面充满变数。同时也减少了对于精准度的强调,能将球送进大门即可。控球困难一方面使比赛具备相互依赖的特点,降低个人数据的意义;另一方面诸多偶然因素的存在让进攻选择无迹可循。在禁止用手的前提下,得分已经很难,而规则准许门将用手让难度更上一层楼。足球恰恰是禁止用手的运动中得分率最低的项目,因为它连间接用手都不允许,不像曲棍球那样还能通过球杆控球。

「体育科普文」详解足球数据是如何被写手滥用的(一)

曲棍球运动

总而言之,同其他主流项目相比,足球的连续性、整体性、低分性意味着许多精彩内容在转化成数字的过程中剥离了。换句话说,没有什么项目比足球被数据削减得更加严重。足球赛中的得分最具欺骗性,但人们对于进球数据的信仰却根深蒂固,难以抹除。

笔者将保持日更,下一期将从梅西、C若二位巨星的进球入手,剖析数据的欺骗性。关注我,带你看更有趣、跟深度的足球资讯。

中超

网站地图