对于互联网而言,现在已经是大数据时代。

这是一个传统媒体(电视、平媒等)、新媒体(网络新闻、行业网站、视频等)、自媒体(博客、论坛、微博、问答、网评、SNS社交、群组等)并存,桌面互联网和移动互联网相互交融的时代。自媒体带来了资讯的指数级增长,传播上亦无时间、空间的限制。

(图:互联网上一分钟所产生的数据量)

“网上一秒钟产生的视频,需要一个人50年才看得完”,这还仅仅是视频部分。 在这些正在新产生的大数据中,很可能就有与您息息相关甚至非常重要的资讯。
互联网大数据,具有大数据典型的4V特征:
1、大数据挖据:数据体量(Volume)很大,而价值密度(Value)非常低。从T->P->E->Z千倍级别扩展,网络带宽也可成倍增加,但“人的生理带宽”却是有限的:一个人每天能阅读的资讯量是有限的。如何从大量无用、无关的资讯中找到只跟“我”有关的资讯呢?
2、大数据计算:数据正在不同类型网站、不同媒体和网民中产生,数据增长加速度大,数据类型(Variety)多。如何高时效性(Velocity)地准确找到并计算出这些资讯的相关性?
3、大数据存储:大数据体量大、类型多样化带来存储和再利用的困难。如何建立一个可控的大数据库和可管的智库,而不能再像以前那样将目标网站群信息都保存到本地?
4、大数据利用:大数据驱动智慧经济,为预测和决策提供量化分析,并带来思维、商业、管理层面的变革。这些数据能支撑哪些应用?能给决策带来哪些帮助?


(图:互联网大数据,与“我”正相关)

不管愿不愿意,关于您的资讯可能正在产生和传播,您的对手或同行可能正在关注。

困惑一:行政命令或广告费用,可以对传统媒体有用。新媒体怎么办?每个人都是媒体。
困惑二:网络媒体的传播没有时间和空间的限制,如何值守?
困惑三:不同的网络媒体类型多达几十种,访问格式和机制各异,网站数量多、分布广、大数据,如何大海盯针?
互联网大数据带来了机会,同时也带来了困难。面对互联网上大量与自身相关的资讯,很少有机构能置之度外。
目前的应对之道主要是三种方式:
1、人海战术:人工到各有关网站去浏览、查找,但找到的往往只是冰山一角,而且早已路人皆知;
2、借助通用搜索引擎(如百度、Google等)。通用搜索引擎作为一种普遍使用的互联网网页搜索技术,对于“资料查找”等需求有帮助。由于商业模式的限制,它对很多网络媒体类型特别是自媒体、地域化和行业化网站、小众网站、移动互联网应用以及社交/电商等碎片化资讯网站不能有效收录和搜索,对行业数据库的接口也为数很少。
由于其通用服务的定位,资讯搜索的高时效性、自动查新、分类管理、主动通知等个性化服务一般难以提供。通用搜索引擎远远满足不了企业级按需搜索需求。
3、开发定制化的搜索软件。这个模式一般能解决用户初期的大部分问题,但除了开发成本的高企之外,还存在软件运维和升级的巨大问题:由于网络环境的多变性,系统的运维升级很难,导致系统的有效运行期一般较短,这也是传统网络型软件的硬伤;这个技术路线要求用户在本地镜像监测网站群的数据,这种模式不具备持续性,也不符合互联网和大数据的发展趋势。

(图:互联网大数据下的传统应对之道)

大数据搜索技术的传统方案,一种是通用搜索引擎模式、一种是定制化软件的模式。这两种模式中,虽然搜索引擎模式实际上只能解决用户一小部分关于搜索方面的需求,但由于是互联网服务(云服务)的简便性而得到广泛使用;而定制软件模式虽然能解决用户大部分问题,但其开发和运维成本太高,而有较高的应用壁垒。
鉴于这两种模式的优缺点,一种新的模式即定向搜索引擎云服务模式应运而生:以可定制化的互联网搜索软件为技术基础,定义平台统一的、用户可定制化设置的搜索需求标准,研发和维护一个开放可扩展云服务平台,以为用户提供可定制化的云搜索服务。

(图:互联网大数据下的定向搜索云服务模式)

在定向搜索模式下,用户每一次的定向搜索,实际上是由多次、各分布式网点、针对不同维度的搜索过程来协同完成的。由于定制化和时效性等搜索需求,每一次定向搜索的成本远远大于通用搜索引擎一次性搜索模式。
这种定向搜索技术架构,适用于个性化、智能化的大数据监测需求,如舆情监测、企业网络情报监测、特定目标(网站、事件、事物等)跟踪等,以及突发事件或专题的大规模实时搜索。从商业运用上,定向搜索模式更适合于云计算的服务模式(SaaS模式)。用户可以按需搜索、按次数付费。

(图:互联网大数据下的定向搜索云服务模式)

定向搜索云服务模式,通过SaaS模式向各类有特定搜索需求的用户提供搜索服务。目前本服务已经应用于金融(银行、保险、券商、基金等)、传媒、科研、企业、政府舆情、政府智库决策(公共服务)等领域。

(图:定向搜索云服务的主要应用领域)