大数据的未来每个人提取的知识越来越少

2022-09-23 21:12:12 彭鹏灵

导读直到最近，word数据还不需要修饰符。但是当我们开始提到大数据的时候，我们就过了分水岭。显然，这对于某些数据块来说是不够充分的描述，因

直到最近，word数据还不需要修饰符。但是当我们开始提到大数据的时候，我们就过了分水岭。显然，这对于某些数据块来说是不够充分的描述，因为人们已经掌握了更大胆的术语，比如巨大的数据。可悲的是，现在我们似乎已经没有合适的形容词了。但是，数据越来越大。

于是，人们不再提数据，而是开始挥挥手，含糊地谈论“云”。这似乎是一个完美的比喻——一股神秘的蒸汽悬浮在地球上，偶尔会落在下面的热接收器上。它既是不可知的，又是全知的。只要我们知道如何解读这些答案，它就回答了所有的问题。

这种演变让人想起两个形象。第一个来自当前的科学假设，即黑洞中的所有信息都存在于它周围的活动视界中。这就像云的概念，在地球之下，云的实际现实体现在服务器农场的激增上。这些农场带来了第二个形象：道格拉斯亚当斯的城市规模的超级计算机Deep think，来自经典小说(以及广播剧、电视剧和电影)《银河系漫游指南》。

考虑到这些想象中的最终状态，我想知道：这些都在哪里？数据会无限增长，还是会有一些收益递减的点？数据是否足够——或者可能太多？

有一种流行的说法是“数据是新的石油。”虽然我认为这是一个不完美的比喻，但石油和数据都需要提炼才能有用。我注意到TS艾略特的诗《摇滚》中描述的信息金字塔：“我们迷失在知识中的智慧在哪里？/我们在信息中丢失的知识在哪里？”

为了我们讨论的目的，假设数据由1和0组成，信息是由数据编码的文字和图像，知识是我们从这些信息中收集或学习的东西。关键的提炼是在信息和知识之间。在精炼油中，有用的最终产品与初始原油量的比率不是原油量的函数。信息不是这样的：我们要处理的原始信息越多，我们希望每比特产生的知识就越少。否则，随着数据的不断增长，大数据也不会压倒我们。我们要的是从大国那里得到的小知识信息。随着数据集变大，工作变得更加困难。然而，问题是，除非大信息足够大，否则它可能不包含我们要搜索的小信号。

知识不可避免地会增加，所以数据必须增加得更快。幸运的是，存储技术似乎可以在不将地球变成巨型磁盘驱动器的情况下应对，但迫切需要人工智能和算法将数据转化为知识。自从克劳德香农在1948年写了他的经典信息论论文[PDF]以来，我们已经走过了漫长的道路。我们可以简单地忽略知识问题，写道：“这些信息通常是有意义的.这种交流的语义方面与工程问题无关。”

我还注意到，抽屉、壁橱和硬盘最终往往会被无用的垃圾填满。我有时把这归咎于热力学第二定律，该定律表明熵——也就是无序——总是增加的。也许这最终会成为云的真实情况。旧的无用的信息积累起来，清除起来工作量太大。另外，谁说什么没用，什么没用？什么都有，但是什么都太多了。熵最大化，就像莎士比亚说的，数据最终变得充满声音和愤怒，没有任何意义。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！