大数据时代,互联网企业的核心技术是什么呢?

大数据时代,作为互联网企业,如何利用好大数据尤其重要,那在这大数据的背景下,互联网企业的核心技术又是什么呢。
已邀请:
男儿当自强

男儿当自强 - 天空飘来一朵云,那都不是事

赞同来自: 黑猫警长

首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同
全王

全王 - 宇宙我最强

赞同来自:

速度、速度还是速度,最快的服务器响应速度始终是公司不懈的追求,传统的mysql基本上已经遇到了技术瓶颈,因为mysql属于关系型数据库,其中表结构相对的比较固定,而且有太多的不用到的功能,这拖累了这种关系型数据库的性能,而nosql(Not Only SQL)也就是非关系型数据库才会应用而生,当然除了这些之外,多线程,高并发等的相关技术的整合才会使服务器性能获得极大的提升。
黑猫警长

黑猫警长 - 爱情原如树叶一样,在人忽视里绿了,在忍耐里露出蓓蕾

赞同来自:

在大数据背景下, 互联网企业的核心技术是对海量数据进行分析和处理的能力。 对数据进行分析的能力主要还是来自于machine learning和统计学方面的知识。 同时, 对数据进行适当预处理的水平也在很大程度上能左右数据分析,预测的结果。尤其是现在市面上的大数据处理工具,平台只有那么有限的几种, 除非自己开发算法,否则各个公司使用的软件都大同小异, 在这种情况下, 对数据的预处理, 挖掘出数据中隐含的额外feature就显得十分重要了。

关于数据预处理的重要性, 我有切身体会。 当我还是University Of Pennsylvania的学生的时候, 我上了Machine Learning这门课, 这门课的final project就是训练一个music genre predictor,根据歌词判定歌曲的种类, 歌曲种类判定的准确率决定每个小组的名次。 所有的小组获得的都是同样的10000首歌词作为training set, 然后对一组含有200首的歌test set进行判定。 我们小组使用了SVM+神经网络训练了一个predictor, 我们最后以93%的准确率排名第二, 领先第三名不到0.5%。 但是第一名的准确率超过96%。 他们同样使用了SVM,但是在此之前, 他们对training set进行了预处理, 把每首歌词中的标点符号提取出来, 作为一个额外的feature,这使得他们最后训练出来的predictor准确率大幅领先其他组。
匿名用户

匿名用户

赞同来自:

大数据可以按数据流分为数据收集,数据分析,数据展示几个部分。
技术上也是围绕这几部分开展,现在比较火热的技术集中在数据分析。
商业上,由于数据价值体现在数量上,还体现在信息密集度、关联度,将来也可能出现数据交易分享,甚至是平台。只有这样才能更多发挥数据的价值。

参与讨论请先登录注册