vlambda博客
学习文章列表

大数据时代的MicrosoftExcel,了解一下

这是一个众所周知并且在日常生活中频繁使用的工具。是Microsoft办公软件三巨头之一,创建报告、生成表单甚至是项目规划,我们可以使用它做任何事情。

没错,他就是MicrosoftExcel。虽然它广为人知,但其实人们从未真正学会使用它。虽然对于大多数人来说,这不是一个主要的问题,但是对于那些需要处理复杂管道和系统的数据处理人员来说,这已经开始成为问题了。
如果了解了如何构建高效且一致的电子表格,事情会怎样?不仅是在工程任务上,日常任务中也有很多好处,它们可以通过提高效率、一致性和可重复性的设计来增强这些文件。

Microsoft Excel的常见误用

当Redmond公司于1985年发布Microsoft Excel时,它已经很成功了。新兴的个人计算机市场相当开放,随着Windows3.0的推出,Excel的销售超过了其主要竞争对手——IBM的Lotus 1-2-3。
从那以后,Windows在整个个人电脑市场的占有率超过85%。因此,Excel和所有的Office套件是最常用的软件。
这一成功并不令人惊讶:MicrosoftExcel易于使用,集合了许多特性,并且具有简单的用户界面。每个人都可以使用它,它无处不在。人们还想要什么?
事实上,做一个几乎每个人都能使用的产品会带来一些对应产物。Excel不是在学校学的。每个人都可以使用它,所以每个人都可以用不同的方式使用Excel。没有明确界定的共识或良好做法。事实上,我们从小学起就不了解这类工具,导致一旦到达专业领域才意识到知识的缺乏。
Excel不可自动化。尽管Excel中嵌入了一种可编程语言(VisualBasic),但仍然难以自动执行繁重的任务,无法与其他软件进行通信。而且,它仍然仅供内部人员使用。
Excel不可扩展。人类正处于大数据时代,因此处理无法在Excel中加载的大文件是很常见的。所有这些都取决于个人的计算能力。在专用服务器上运行Microsoft软件似乎也很困难。同样,它不是为这种用途而设计的。
Excel是不可复制的。最后不得不提,当收到一个包含大量汇总数据、颜色、缩写或公式的Excel文件时,很难理解所有这些东西是如何设置和收集的。Excel不会保存构建此类文件所涉及的任何工作流状态。

内部数据团队

在过去的二十年中,这四点并不是什么大问题。但与此同时,一个“新”领域开始了。随着计算机资源的发展,公司发现他们现在拥有大量数据,但不知道如何处理。
一系列新的工作岗位出现了:数据科学家、数据分析师、数据工程师、机器学习工程师、数据开发工程师等等。最重要的词是DATA,新岗位的主要目标是从海量数据中发现价值。
有了这些新奇的功能,就可以创建大量的工具来构建数据管道,更好地可视化数据或创建数学模型来预测未来的值。但大多数数据仍然保存在Excel文件中。此外,开发出来的工具有时使用起来很复杂,只有训练有素的工程师才能操作它们。
因此,这里仍然存在差距。一方面有很多人仍然使用电子表格作为他们的主要工具之一,另一方面工程师必须处理复杂的管道,但也要处理这些混乱的文件。因此,在清理这些文件并将它们集成到整个数据管道中会损失大量的时间和金钱。数据团队由学习数学、计算机科学等学科的杰出人才组成。
实际上,工程师们也不学Excel,他们只知道计算机和他们的数据管道,所以他们可以讨价还价。然而,与他们在这段时间所能做的相比,这并没有附加价值。如果从一开始就学习如何创建和维护干净的文件,而不是让工程师来处理这些混乱的文件,那会怎么样呢?通过遵循简单的规则,就可以构建高效、可重复和自动化的文件,并停止创建混乱的电子表格。

简单整理电子表格

下面是一个常见电子表格的例子:

大数据时代的MicrosoftExcel,了解一下

一个常见的电子表格

尽管它看起来设计得不错,但是从可重复的角度来看并非如此。

通过这个简单的示例,笔者将描述什么是最好的做法,以建立一个容易让计算机理解的文件。
第一行与特定字段不对应。在此应将其替换为“年份” (year) ,“类型” (type) ,“产品” (product),“数量” (quantity)。这就是所谓的“标题”。使用颜色和字体形状格式化单元格。虽然添加颜色和粗体/斜体文本便于查看,但对计算机却没什么用。此外,这些设置不是目标,并且对文件的理解可能会因用户而异。
将不同性质的数据放在同一行。如上所述,它看起来很方便,但实际上,每一行应该只包含一个观察值的信息。同样,聚集总体值(如total或average)与其他值在同一条线上通常不是一个好方式。这是不一致的,计算机也无法理解。
合并单元格。同样的事情:每一行应只包含有关一个数据观察的信息。在同一工作表或标签中中分隔表。用不同的标签区分年份是使表格更易于阅读的一种常见做法,但如果计算机只读取一张表,则该表将无法被读取。

这些是简单的规则,不是吗?以下是应用这些准则后的结果。

大数据时代的MicrosoftExcel,了解一下

整齐的电子表格

两全其美

读者如果不是在技术领域工作,可能会说这不是一个很有用的电子表格。说对了一部分。这种设计无法处理总和或平均值之类的聚合值,而且查找特定值也不太方便。
尽管如此,仍然有一些方法可以处理这些文件,甚至改进以前的设计。保存一份数据完整的表格。首先,一定要像上面演示的那样,保留一个带有数据格式的表单。这样,数据科学家或任何使用特定软件的人将能够加载文件,而不需要在以后处理它。
在另一个工作表或应用程序中处理和聚合数据。进行求和、添加过滤器、创建绘图或任何其他数据处理,只需打开另一个工作表并执行所需操作。将这个空间视为一个实验室,可以在这里对数据进行试验并生成报告。这样就可以保护原始数据。
此外,有人可能希望使用或学习其他工具。现在,有很多用户友好的工具来创建仪表板或报告。它们提供了很好的设计选项,并包含了许多构建和导出报告的功能。
如果想更进一步,可以使用这些数据人员每天都在使用的工具。这些大多是像Python或R这样的可编程语言,它们带来了更多的自由和可复制性。因为它实际上是代码,所以创建图表和报告的整个工作流程都被保存了。因此可以共享代码,任何人都可以编辑它以适应自己的需要。
尽管它比Excel更复杂,但高自由度允许用户构建任何想要的东西。最后不得不提:它是免费的。

这只是一种小小的适应

改进这些文件设计有两个主要优势:

首先,对技术人员有帮助。不仅仅是利他主义,它还可以加速工程师建立数据管道的方式,从而增加洞察力,为公司带来更多的价值。
其次,通过在团队甚至公司规模上应用这些规则,可以最终得到一个更相似的“语言”来处理这些文件,从而更好地理解和操纵公司的数据。
现在是2020年,人们的耳边充斥着关于人工智能、大数据、机器学习等的流行语,却不知道它是什么。事实上,它始于数据,存在于每个人的手上和电脑中。

大数据时代的MicrosoftExcel,了解一下

(摘自:51CTO    编辑:挥着翅膀的鱼)