本文是多篇资料及网上资源的整合,出处放置文尾。在本文中,将介绍数据图形可视化中的一些主要创新者及其一些著名的作品。可视化发展与测量、绘画、文明、科技的发展是一脉相承的。在地图、科学、工程制图、统计图表中,可视化技术已发展了数百年。
在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视图表以增强认知的技术,称为可视化。
可视化将不可见或难以直接显示的数据转换为可感知的图形、符号、颜色、纹理等,以增强数据识别效率,传递有效信息。可视化通常被理解为生成图形图像的过程。更深刻的说法是,是数据认知的过程,数据形成感知图像,强化认知理解的过程,而非绘制的可是图形本身。因此,可视化可理解为通过可视表达增强人们处理数据效率。
本文目录:
-
17世纪以前:萌芽
-
17世纪:测量与理论
-
18世纪:图形符号
-
1800-1849:现代数据图形的开端
-
1850-1899:数据图形的黄金时代
-
1900-1949:现代启蒙
-
1950-1974年:数据可视化的重生
-
1975年1987年:多维数据可视化
-
1787年-2004年:交互可视化
-
2004年至今:可视分析学
17世纪以前:萌芽
我们永远都无法知道世界上第一个数据可视化的作品长的是什么样子了,它早就在沧海桑田中不知所踪。地图最初用于导航,土地,好奇心,已经以某种形式存在了至少一万年。
其中最早的地图在公元前6200年于土耳其地区出现。
中国的地图最早见于夏朝,《史记·夏本纪》记载了夏禹治水的事迹,地图绘制在鼎上,九鼎是见于文献记载的、刻绘有九州山川形势的原始实物地图。现代考古发现的我国最早的地图实物,是出土于甘肃天水放马滩战国墓地一号墓中的《放马滩地图》。
公元前1150年埃及都灵纸莎草地图,在公元前14世纪中叶的古埃及新王国时期,尼罗河中游,曾经雄踞着一座当时世界上无与伦比的都城,这就是被古希腊大诗人荷马称为“百门之都”的底比斯。而下图草图,是在19世纪的“底比斯”中发现。它是现存最古老的地形图,展示了一系列令人着迷的信息,包括地理和矿物开采数据。
公元前366-335年,第一张城市路线图显示了整个罗马世界,这是从维也纳到意大利,再到迦太基的地图信息,被涂在羊皮纸上。(以16世纪德国收藏家的名字命名为Peutinger)
公元150年,克劳迪乌斯·托勒密绘制的球形地球地图,是第一张通过天体观测来制定陆地位置的地图,同时第一次采用了经纬线。托勒密详细揭示了如何采用两种方法将球体的地球绘制到平面上,探讨了地图投影和比例尺的问题,明确了地图应该“上北下南”,并且以扇形的方式将球形地图展开,直到今天,这些理论仍然是地形图和世界地图绘制的标杆。
950年,欧洲《行星运动图》是已知的最早尝试以图形方式显示变化的值(全年中太阳,月亮和行星的位置)。
1092年,苏颂浑象西南方中外官星图。
1569年8月,墨卡托出版了他的世界地图,这是真正意义上的第一张世界地图,它开创了地理学史上的新篇章。
墨卡托发明圆柱投影用于在地图上描绘地球,以保持横线的直线性,地图上的直线在看着指南针时可以转换为恒定方位线,因此非常适合海上航行。它被证明很受欢迎,并且仍是我们今天最常见的世界地图投影。
墨卡托投影的地图最大的缺点就是和现实差别太大,变形非常严重。在墨卡托投影的地图上,变形最严重的就是非洲和格陵兰岛了。地图上非洲的大小和格陵兰岛差不多大,但如果计算一下的话:非洲面积约是3020万平方千米,格陵兰岛面积约是217万平方千米,而3020÷217≈14。也就是说,非洲的面积是格陵兰岛的14倍!
在16世纪,用于精确观测和测量物理量的技术和仪器得到了很好的发展。同样,人们有了直接捕获图像并将数学函数记录在表格中的初步想法。这些早期步骤是可视化图表萌芽的开始。
17世纪:测量与理论
17世纪理论上有了巨大的新发展:解析几何的兴起,测量误差的理论和概率论的诞生,以及人口统计学的开端和政治版图的发展。到本世纪末,数据可视化方法必不可少的要素已经具备了,一些具有重大意义的真实数据,有意义的理论及视觉表现方法出现,人类开始了可视化思考的新模式,可以将本世纪视为可视化的开端。
1626年克里斯托弗·施纳(Christopher Scheiner)绘制出来表达太阳黑子随时间变化的图,在一个视图上同时展示多个小图序列,是邮票图表法的雏形。
1637年, Pierre de Fermat 和笛卡尔在数学,解析几何中重新引入坐标系,建立点线与方程之间的一一对应关系。
1644年迈克尔·范·兰格伦(Michael van Langren)描述了从托莱多到罗马的12种经度确定:很可能是统计数据的第一个视觉表示。这幅图现在被认为是第一幅(已知的)统计图形。这幅图以一维线图的形式绘制了在托莱多到罗马之间12个当时已知的经度差异。在经度上标注了观测的天文学家的名字,有效的安排了数据的表达方式,堪称里程碑之作。
1654年布莱斯·帕斯卡对概率论做出了初步陈述。那是一个非常具有历史性的成果。
1662年 John Graunt 建立人口统计学:统计数据概念的重要发展。图为伦敦洗礼和葬礼的记录,伦敦的平均预期寿命为27岁,其中16%的人到16岁时死亡。
1666年加拿大进行了第一次现代完整的人口普查,记录了新法兰西3215名居民。申报表相当完整,提供了有关人口,性别,家庭,婚姻状况,年龄,职业和行业的数据,共填写154页。
1686年,哈雷 Edmond Halley 绘制了第一幅已知的气象图,显示在地理地图上主流风场分布。这也是向量场可视化的鼻祖。
1693年哈雷 Edmond Halley 首次使用矩形区域来表达独立的二进制事件概率。
18世纪:图形符号
社会和科技进步相伴随的是数据的价值开始为人们所重视,人们不满足只在地图上展示几何图形,抽象图形和函数图形的功能被大大扩展,许多崭新的数据可视化形式在这个世纪里诞生了。
1701年,哈雷(Halley)绘制《大西洋电磁图》。上面在坐标网格上用等值线表示了等值的磁偏角,这是第一个使用等值线(或等高线)的图表,它们是等值线等50多种命名类型的鼻祖。
1752年 Leonhard Euler 引入一种符号,该符号为3D空间(x,y,z)中的每个可能点提供名称和地址。
1758年,约翰内斯·托比亚斯·梅耶(Johanes Tobias Mayer)开发图表以代表色彩系统,一种构造和命名许多颜色的系统。兰伯特用”饱和度”的3D金字塔颜色系统扩展了此范围。
1765年,约瑟夫·普里斯特利(Joseph Priestley)发明了时间线图《传记图》,显示了各种古典政治家和哲学家的一生。Priestley不仅在时间轴上列出了姓名,出生年和死亡年,而且还列出了出生年和死亡年,从而可以看出历史人物所处时代。时间表证明是成功的,并直接启发了Playfair发明条形图,该条形图首次出现在他的“商业和政治地图集”中。
1769年约瑟夫·普里斯特利(Joseph Priestley)发行了通常被认为是18世纪最具影响力的时间表《新图》,显示帝国的兴衰。水平线传达了成名,影响力,权力和统治力的持续时间的概念。垂直阅读传达了思想,事件和人的同时性印象,空隙表示例如知识分子的黑暗时代。这一幅作品直接激发了柱状图的诞生。
1782年 Marcellin Du Carla绘制的第一幅地形图,用一条曲线表示相同的高度,对于测绘,工程和军事有着重大的意义,成为了地图的标准形式之一。
18世纪是统计图形学繁荣时期,其奠基人 William Playfair 发明了折线图、柱状图、饼状图、圆图。他的经历非常曲折。他依次是一位麦赖特人,工程师,制图员,会计师,发明家,银匠,商人,投资经纪人,经济学家,统计学家,小册子作者,翻译,公关人员,土地投机者,定罪者,银行家,热情的保皇党人,编辑,敲诈者和新闻记者。他设计的图表构成了当今数据可视化的核心要素。
下图显示了苏格兰与欧洲和世界各个地区的贸易平衡。他通过以这种方式显示数据,很容易发现苏格兰与爱尔兰的紧密经济联系以及与俄罗斯的贸易不平衡。
下图为丹麦与挪威1700-1780年间的贸易出口序列图。
1786年 Playfair 发明条形图,显示小麦与工资的价格。
1800-1849:现代数据图形的开端
随着工艺设计的完善,统计图形和主题制图爆炸性增长,包括柱状图,饼图,直方图,折线图,时间线,轮廓线等。在专题制图学中,制图从单一地图发展为全面的地图集,描绘了涉及各种主题(经济,社会,道德,医学,身体等)的数据,同时演化出了可视化思考的新方式。
1801年 William Playfair 的饼图和圆形图,用于显示整体关系。不过他早在1789年就使用饼图显示土耳其各地区疆土比例。
1811年亚历山大·冯·洪堡使用细分条形图的图表s和重叠的正方形,显示了墨西哥领土和殖民地人口的相对大小。
1817年亚历山大·冯·洪堡绘制的第一张等温线图,通过纬度显示世界各地的平均温度和经度。下图显示温度与这两个变量之间的直接关系,这让人们认识到温度受于纬度和海拔影响。
在1801年,英国地质学家William Smith绘制了第一幅地质图,这张描绘了英格兰地层信息。于1815年出版后引起轰动,引领了一场在地图上表现量化信息的潮流。
1826年,查尔斯·杜品(Charles Dupin)《法国总人口图鉴》:发明了连续使用黑白底纹(黑白程度)来显示法国识字分布情况的方法,这是第一张现代形式的主题统计地图。
1829年安德烈·米歇尔·古里绘制极区图(早于佛罗伦萨·南丁格尔),显示了周期性现象发生的频率。
1830年, Frère de Montizon绘制了法国人口的点密度地图,这是第一张点图。
1843年 LéonLalanne 在图表使用极坐标的中表达风向的频率。
1844年,Minard绘制了一幅名为“Tableau Graphique”的图形,显示了运输货物和人员的不同成本。在这幅图中,他创新的使用了分块的条形图,条形块图的宽度对应路程,高度对应旅客或货物种类的比例。这幅图是当时马赛克图(mosaic plot)的先驱。
1845年,一位法国土木工程师查尔斯·约瑟夫·米纳德,他在结合统计和制图领域。他绘制了人类历史上第一幅流图,显示了通过该地区道路收集的交通数据。用可变宽度的线段显示了交通运输的轨迹的乘客数量。
1850-1899:数据图形的黄金时代
到1800年代中期,可视化快速发展的所有条件已经建立。认识到数字信息对社会计划,工业化,商业和运输的重要性日益提高,欧洲各地开始建立了官方的国家统计局。由高斯和拉普拉斯发起的统计理论,再由盖瑞和克特莱特扩展到社会领域,提供了理解大量数据的手段。
1854年约翰·斯诺(John Snow)《伦敦爆发的霍乱病例群》:使用点图映射了1854年的宽街霍乱疫情,他还使用统计数据来说明水源质量与霍乱病例之间的联系,这表明该疾病是通过受污染的水传播的,而不是以前认为的空气传播的斯诺的研究是公共卫生和地理历史上的重大事件。它被认为是流行病学的创始事件。
弗罗伦斯·南丁格尔作为现代护理界受人尊敬的创始人,也是一位才华横溢的数学家,他是统计学图形表示的先驱。弗罗伦斯·南丁格尔主动申请,自愿担任战地护士。她率领38名护士抵达前线,在战地医院服务。她竭尽全力排除各种困难,仅仅半年左右的时间伤病员的死亡率就下降到2.2%,战争结束后,南丁格尔回到英国,被人们推崇为民族英雄。
1857年,她以Playfair的思想为基础,将图表并入她的许多出版物中,绘制了极地面积图Coxcomb。下图为东方军队中死亡原因图,该图表按月描绘了克里米亚战争期间关于士兵死伤原因,每个楔形物的面积代表了统计数据的大小。
1861年弗朗西斯·加尔顿(Francis Galton)绘制现代天气图,图表在地图上通过字形显示相似的气压和气压变化。这些导致发现了低压周围风的反气旋运动。
1869年门捷列夫 Dmitri Mendeleev 元素周期表用于根据化学元素的性质对化学元素进行分类,并可以预测以后会发现的新元素。由于周期表能够准确地预测各种元素的特性及其之间的关系,因此它在化学及其他科学范畴中被广泛使用,作为分析化学行为有用的框架。
1869年查尔斯·约瑟夫·米纳德发布的1812年拿破仑东征俄罗斯事件的流图,被誉为有史以来最好的数据可视化。他的流图呈现了拿破仑军队的位置和行军方向、军队汇集、分散和重聚的时间地点、减员等信息。
这种“流图”在后世命名为桑吉图(Sankey diagram),桑吉图以爱尔兰工程师 Matthew HR Sankey 的名字命名,桑基完成了箭头上与能量成比例的能量的首次图示,比较了蒸汽机的能量效率(能量平衡)。
维多利亚时代的统计学家弗朗西斯·高尔顿(Francis Galton)建立了相关性的统计概念,并广泛促进了回归均值。1886年,在分析两个变量之间的关系时,高尔顿设计了一种图形技术,为比较成年子女的身高与父母的平均身高,其中将每种组合的频率绘制在网格上,在此网格上,轮廓线被覆盖,显示了数据的密度。对于两个相关的,正态分布的变量,这些轮廓应形成一个椭圆,长轴充当线性回归的形式。
1879年 Luigi Perozzo 绘制立体图(三维人口金字塔)以实际数据为依据(瑞典人口普查,1750-1875年)。此图与之前的可视化形式有一个明显的区别:开始使用三维的形式,并使用彩色表示了数据值之间的区别,提高了视觉感知。
1884年穆尔霍尔 Michael George Mulhall 绘制象形图,用于通过与数字成正比的图形表示数据。
1885年法国工程师 Ibry 绘制的火车时刻表图形,显示从巴黎到里昂的路线上的行驶速度。此法沿用至今。
1900-1949:现代启蒙
如果1800年代初是统计图形和专题制图的“黄金时代”,则1900年代初可以称为可视化的“现代黑暗时代” 。少有图形创新,到1930年代中期,社会科学中量化和正式的,通常是统计的模型的兴起,取代了以1800年代后期的可视化热情特征。
1904年 Manuder 绘制蝴蝶图,研究黑子的时间变化,验证了太阳黑子的周期性。
1911年 Hertzsprung-Russell 图,作为温度函数的恒星亮度的对数图,解释了恒星的演化,成为现代天体物理的奠基之一。
1917年亨利·劳伦斯·甘特绘制甘特图,旨在显示项目的计划进度和实际进度。甘特图最初用于大型建筑项目,下图为现代甘特图。
1933年绘制的伦敦地铁图,出版后迅速为乘客接受,并成为今日交通线路图形的一种主流表现形式。
1950-1974年:数据可视化的重生
引领这次大潮的,首先是一个划时代的事件——现代电子计算机的诞生。计算机的出现彻底地改变了数据分析工作。到60年代晚期,大型计算机已广泛分布于西方的大学和研究机构,使用计算机程序绘制数据可视化图形逐渐取代手绘的图形。计算机对数据可视化的影响:高分辨率的图形和交互式的图形分析,提供了手绘时代无法实现的表现能力。
另一件唤醒可视化的历史事件是统计应用的发展,数理统计把数据可视化变成了科学,世界大战和随后的工业和科学发展导致的对数据处理的迫切需求把这门科学运用到各行各业。在应用当中,图形表达占据了重要的地位,比起参数估计假设检验来,明快直观的图形形式不是更容易被人接受嘛。
1957年埃德加·安德森使用圆形字形,用射线表示多元数据。
1958年 Alban William Housego Phillips 发明散点图”菲利普斯曲线” ,通货膨胀与失业之间的关系显示出强烈的反比关系,促进宏观经济理论的发展。
1960年代中期地理信息系统GIS的初步开发,结合了空间参考数据,空间模型和基于地图的可视化。示例:哈佛大学计算机图形学(和空间分析)实验室开发 SYMAP,在行式打印机上生成等值线图,线形图和近端图。
1967年,Jacques Bertin 出版了一部里程碑式的著作,Semiologie Graphique。这部书根据数据的联系和特征,来组织图形的视觉元素,为信息的可视化提供了一个坚实的理论基础。图为贝尔丁的七个视觉变量。
1969年 John W. Tukey 探索性进行了数据分析图形的创新,发明箱型图。
1971年不规则多边形”星图”代表多元数据(顶点等距间隔开,到中心的距离与变量的值成正比)。下图为美国城市犯罪率星图。
1971年 Ruben Gabriel 绘制出双标图,这是发展一种在单个显示器中可视化多变量数据集中的观测值和变量的方法。观测值通常由点表示,变量由向量表示,使得点沿向量的位置代表数据值。下图为血液数据的双标图。
1973年神奇的卡通脸谱图 Chernoff faces。用脸谱来分析多维度数据,即将P个维度的数据用人脸部位的形状或大小来表征。
脸谱图分析法的基本思想是由15-18个指标决定脸部特征,若实际资料变量更多将被忽略,若实际资料变量较少则脸部有些特征将被自动固定。统计学曾给出了几种不同的脸谱图的画法,而对于同一种脸谱图的画法,将变量次序重新排列,得到的脸谱的形状也不同。
1974年,美国人口统计局胃癌发生率,在地图上用不同颜色表示所在区域的变量值。
1975年1987年:多维数据可视化
各种计算机系统,计算机图形学,图形显示设备,人机交互技术发展激发了人们可视化热情。数据密集型计算器走上了舞台,也造就了对数据分析和呈现的更高需求。
1975年 William S. Cleveland 和Beat Kleiner 制作的散点图增强型, 带有三条移动统计的均线。下图为美国1970年彩票数据草稿。
1975年 John Hartigan 的散点图矩阵,在表格显示中绘制n个变量的所有成对散点图的想法。
1981年 George W. Furnas 制作的鱼眼视图:一种新的想法,可以在大量信息感兴趣的区域中提供焦点和更多细节,同时以较少的细节保留周围环境。下图为华盛顿特区中部的鱼眼图。
1981年 John Hartigan 等发明的马赛克图,以表达多维类别行数据。下图为Hartigan和Kleiner5路马赛克电视收视率。
1981年,Xerox 8100 Star引入了第一个商业图形用户界面(GUI),并带有诸如电子表格之类的应用程序,它们能够从信息表中自动生成图形。只需单击几下鼠标,就可以完成曾经费时数小时的仔细刻蚀或绘制工作,并且可以更加轻松地进行编辑,格式化和更新。从那里开始,各种各样的制图技术和样式激增,无数软件包提供了一系列显示数据的方法。
1982年乔治·罗里克(George Rorick)绘制彩色天气图开创了报纸上的彩色信息图形时代。不久,色彩斑 visual 的视觉图形开始普及。
1985年 Alfred Inselberg 发明的高维数据的平行坐标图。
1787年-2004年:交互可视化
交互式的可视化,它们必须具有与人类交互的方式,如单击按钮,移动滑块,以及足够快的响应时间以显示输入和输出之间的真实关系。
1987年,美国国家科学基金会召开首次有关科学可视化的会议,会议报告正式命名并定义了科学可视化,认为可视化有助于统一计算机图形学、图像处理、计算机视觉、计算机辅助设计、信息处理和人机界面的相关问题。
1987年理查德·贝克尔 和威廉·克利夫兰用交互式统计图形,连结等其他形式进行可视互动。
1988年Antony Unwin 和格雷厄姆·威尔斯制作出可直接操作(缩放,缩放,覆盖等)的多个时间序列式交互图形。
20世纪80年代末,视窗系统的出现使得人们能够直接与信息进行交互。
1989年哈斯莱特 ,安东尼·温温 和克雷格制作交互动作链接到地图显示的统计图形 Graham Wills。
1989年 Ted Mihalisin 使用“嵌套尺寸”(与网格和马赛克显示有关)来可视化多维数据。对连续变量进行分箱,然后以嵌套方式将变量分配给水平和垂直尺寸。下图为四个响应变量与年龄、性别、教育程度间的关系。
1991年Michael Friendly镶嵌显示开发为对数线性模型的可视化分析工具。
1991年 Ben Shneiderman发明树状图,用级联嵌套的平面化树状结构表达层次结构可视化。
1991-1996年一系列用于数据分析和可视化的高度交互式系统的开发和公共发行,例如XGobi。
1994年施乐公司桌面表格:用于查看大表的焦点和上下文技术;用户可以扩展行或列以查看详细信息,同时保留周围的上下文。
1996年 Jason Dykes 发明制图数据可视化工具:一种地图可视化工具包,具有用于查看数据的图形工具,包括用于探索性空间数据分析的多种映射选项。
2002年吉姆 (Jim Flanagan) 发明标签云(也称为“词云”)在视觉上刺激了大型文本的摘要。他们的目的是选择文本并直观地显示该文档中最常用的单词的出现频率。通过突出显示感兴趣的特定作品中的主要主题,这些对于定性分析很有用。
2004年至今:可视分析学
进入21世纪,随着计算机相关硬件升级,现有可视化已难以应对海量、高维、多源的动态数据的分析挑战,需要综合可视化、图形学、数据挖掘理论与方法,研究新的理论模型,辅助用户从大尺度、复杂、矛盾的数据中快速挖掘出有用的数据,做出有效决策,这门新兴学科称为可视分析学。
数据分析的任务通常是定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联、关系等。可视化分析降低了数据理解的难度,突破了常规统计分析的局限性。如下,交通拥挤图:
值得注意的是,可视化分析的基础理论与方法,仍在形成、探索。等过个10年有机会再补全此段内容。
参考:
数据可视化简史https://towardsdatascience.com/a-short-history-of-data-visualisation-de2f81ed0b23
《数据可视化》https://book.douban.com/subject/25760272/
第一张电磁图:https://academic.oup.com/astrogeo/article/42/1/1.23/270989
数据可视化经历了怎样的发展历程?https://www.zhihu.com/question/23077930
可视化简史http://datavis.ca/papers/CHF-2×2.pdf
数据可视化简明史https://www.douban.com/note/253394412/
统计图形和数据可视化http://euclid.psych.yorku.ca/SCS/Gallery/milestone/sec9.html
评论回复