2016年6月

IZA DP第9988号:大数据是一件大事,但我们需要多少数据?

发表在:旅行社中国统计杂志,2016,2-3

我们当中比较保守的人认为,“大数据只是一种时尚,很快就会淡出”,事实上,他们可能部分是对的。相比之下,其他人–尤其是那些冷静地注意到数字化现在才刚刚开始交付其有效载荷â€的人”可能会表示不同意见。我们认为,从各方面考虑,大数据可能会不复存在,尽管这种情况不会发生,因为它只是一种时尚,而是因为所有数据最终都会成为大数据。在这篇文章中,我提出和讨论的问题,“我们真的需要多少数据”,因为生活中的一切,因此返回的数据的增量应该服从某种收益递减规律:越多越好,但是在某一时刻的收益不值得付出努力或变得消极。因此,我讨论小的和大的,具体的和一般的例子,以阐明这个问题。我并没有详尽地探讨这些问题的答案,而是希望能激发读者的思考。尽管如此,主要的结论是,依赖于用例,缺乏和大量的数据可能会适得其反,个人,数据专家,企业或社会有不同的优化问题,因此没有什么能让我们摆脱这样的决定:多少数据才算是足够的数据,而数据密集型社会将面临的最大挑战是正强化、反馈机制和数据内生性。