最近有一部网剧《长安十二时辰》正在刷屏网络。截止现在,#长安十二时辰#微博话题阅读量达到了52.1亿,讨论量达到了967万。此外,上线仅3周,豆瓣评分达到了8.6分,创下2019年国产剧最高分记录。
这部讲述24小时内拯救长安乃至整个大唐存亡的作品,画面精美、剧情紧凑、表现精彩。但更令人惊讶的是剧中神秘的高科技“大案牍术”,这个高科技放到现代就是我们常说的大数据,今天我们就来给大家说说剧中“大案牍术”是如何利用大数据拯救长安的!
剧中有一个叫靖安司的部门,他们的领头是年仅22岁的李必。这个部门权势不大,但实力却不小。用的全都是高科技,人工无时差精确报时,3D城防布局沙盘模型,还有被称为大案牍术的大数据分析。下面分别说下这个剧中起到关键作用的数据资源体系。
1.靖安司:数据资产管理
靖安司坐拥王朝大数据中心,是长安城第一情报局。首先通过各地眼线、大批书吏收集汇总三省六部、一台九寺五监等机密要件,形成强大的数据资产库;然后汇集了各部门擅长记忆与思考的精英,通过海量的数据处理,提供决策支持,找到线索。
2.望楼:数据采集传输
望楼是八丈高的瞭望塔,星罗棋布的安置于长安城中。楼与楼间靠旗语、鼓声或灯火光来传递信息,依靠这一体系,坐镇靖安司便可掌握长安城各方面的实时数据,所有数据每日实时更新,结构化归档入库,便可统一遥控调度全城的城防力量。
3.沙盘:数据可视化
靖安司内不但有庞大的数据库,还有长安3D地图——长安城沙盘,该沙盘包含长安108坊和25条大街。结合望楼体系,靖安司的人就好比拥有了一个可以鸟瞰全长安的无人机,随时可以了解被追踪目标当下的位置,从而做出及时的指挥调度。
4.大案牍术:数据算法模型
大案牍术是靖安司文吏徐宾研究的一套以大唐各类卷宗档案数据为基础的处理事务的方法。大量文吏从浩如烟海的户籍、税收、人口、土地、军籍、房屋、通关文牒、工商信息、营造记录中分析总结出来想要的有用记录,再借助望楼进行全城“联网”,从而辅助靖安司侦破狼卫火攻长安的秘密计划。
剧中靖安司文吏徐宾以超强记忆力对长安各部门办事文书进行记忆、归纳、整理,形成“大唐数据库”。在没有电脑检索的情况下,也能在脑中迅速分析、调取资料,进而准确推断真相、预测未来,这其实就是最早的数据分析,也就是数据算法模型。
片中张小敬的扮演者雷佳音演技颜值双在线,受到普遍好评,剧中张小敬正是被徐宾利用“大案牍术”推断后选中(虽然在影片最后被推翻)。但更有趣的是在戏外,由雷佳音来饰演张小敬的决定是导演组参考了大数据分析来选定。
优酷两年前就构建的泛内容大数据智能预测平台,该平台的数据库内收录了超200万个艺人的数据。在影片拍摄前,优酷的算法工程师将剧本和原著通过算法扫一遍,提取出主要人物的关键词,然后算法通过各维度标签对比生成比较合适参演该剧的艺人名单供制片团队参考。
雷佳音就是通过大数据算法推荐出来的艺人之一,导演曹盾表示,为了保证演员本身与角色的契合度,优酷平台的数据成为他选择雷佳音的重要依据。大数据的选角建议还显示,雷佳音的颜值超过九成男明星,可以说是现实版的“大案牍术”。另外大数据除了帮助挑选演员,还提供了剧本评估、剧情分析等影视创作辅助。
剧中“大案牍术”虽是作者马伯庸在小说中杜撰的技能,但在中国历史上,虽然没有成熟的大数据技术运用,但已经有了数据归集的意识和大数据思维,而这些都是大数据的的基础,比如:
首先需要大量的数据统计。剧中徐宾论“录入吏”对国家的重要性正好说明了这点。其中以档案登记为基础,无论是百姓家添丁新丧、婚配嫁娶之事,还是各个衙门机构间的人员往来和调动,甚至连钱粮货物流水,都会由录入吏进行登记,这正式是由海量信息进行的数据采集。
其次剧中因为权贵勋爵的干预,或是基层账籍工作者的懈怠,以致许多数据采集记录缺失、失实。从小处看只是无伤大雅的失误,但当这些数据汇集并成为决策的基础时,就有可能导致结果和决策的偏差。
最后大案牍术记录卷宗需要大量的纸张,而当时唐朝的藤纸相当匮乏,所以导致剧中的徐宾将每月的俸银都用来买书做造纸坊了。而现代呢,藤纸就好比存储服务器和数据仓库,只有这些才能更好的储存数据。
什么是用户画像?我们借用大数据中的概念,来介绍“大案牍术”中所使用的用户画像。
用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:Personas are a concrete representation of target users.
剧中徐宾作为一个大数据开发工程师,他发明了独有的数据分析算法——大案牍术。使用该算法对大唐案牍中记录的各种数据添加目标的行为与特征等标签,进行检索,分析出其喜好与习惯。
唐朝的大数据用户画像让靖安司迅速定位可用之人张小敬,最后关头阻止了上元节危机,解救长安城的黎民百姓。
图中这一系列‘短文本’标签,能够让你想象出一幅具体画面,联想到这位唐朝不良帅的尊容。这就是用户画像的典型案例,其概念简单来说,就是“大案牍术”信息提取出的数据集合。
而现在的大数据分析在用户画像的应用,则是企业将收集到的用户个人信息、订单信息、爬虫信息、埋点信息等进行挖掘分析,抽象出一系列低交叉率的短文本标签绘制一个用户商业全貌,从而更好帮助企业节省营销成本、提高盈利。且能够减少用户被打扰频率,节省用户购物时间,提升使用体验。
除了用户画像外,剧中大数据还有以下几个应用:
(1)数据统计,在剧中可以看到大案牍术能够根据类目、货物进出量等信息,查询到所有的进出长安的各种类易燃物,进货量异常的店家。从各维度统计数据量,用于分析变动情况,快捷有效的发现问题。
(2)数据分析,可以通过“大案牍术”查询假借住宅出租合约、通过长安县一年内户籍变动等资料,缩小可疑住址范围,尝试潜入京城的狼卫暂住地。数据分析的归纳、对比等方法,为观测用户行为变化情况提供了可能。
(3)数据建模,剧中旅贲军崔器谎报全奸狼卫,伪造尸首,靖安司行大案牍术,测量身高拆穿谎言。大数据的难点不在于数据量缺乏,而是准确度。只有保证数据准确度,才能建立有效模型用于分类与预测。
纵观古今,数据智慧早已沿袭千百年。春秋战国时期,齐国国相管仲通过对农业生产信息的统计分析来制定相关的农业生产政策;此外,《平准书》、《河渠书》、《货殖列传》、《食贷志》、《地理志》等史籍也都有留下有关商业发展、手工业农业生产、战事、山川地理、天文水文等大量的统计数据。
宋代在统计信息方法上除了沿承唐代的平衡分析法还发展了对比分析法和结构分析法等,在神宗朝,曾巩就曾经利用往年人口、耕田、国家收入、官员人数等的统计数据分析了经济的发展速度,进而提出“罢减冗费”的建议。如此可见,从古至今“大数据”技术是人类长期采集、记录和使用数据的习惯,加以科技运用的必然产物。
如今说到大数据技术不得不提到数据中台。剧中靖安司的整个数据资源管理体系就好比企业的数据中台,能快速调取后台系统的各种数据(三省六部、一台九寺五监等机密要件),同时能能更快速地响应业务和应用开发的需求(望楼和大案牍术),最终灵活高效的支持以用户为中心的持续规模化创新能力(支持张小敬快速跟进狼卫的线索)。