bj02s 技术动态  
一个智能广告投放平台的炼成
 
 


        被有些人称为现代广告业之父的John Wanamaker同时也是大的零售业主。他在费城和纽约开了许多家百货商店。他有句名言精辟的概括了困扰他的一个问题:他知道他做广告的一半的费用是浪费了; 但是他不知道是哪一半费用浪费了。随着互联网以及移动互联网的迅速发展,网民在互联网上的时间越来越长,越来越来的市场营销的预算放在互联网的数字化广告上,这个一百多年困扰John Wanamaker的问题正在得到解决。这是因为互联网媒体跟传统媒体相比有一个巨大的优势,互联网广告投放的可跟踪性和可测量性。通过简单的浏览器和HTTP技术我们能非常清楚的知道广告有多少次曝光,用户有多少次通过点击或其他行为与广告产生互动,甚至产生了多少网上订单。更进一步,通过对大量数据的分析挖掘,我们能清楚了解广告受众的需求,为将来的市场营销提高精确的数据支持。
        互联网的广告主要有两种形式,一个是搜索广告,另一个是展示广告。过去的十年里, 搜索广告的发展是有目共睹的。而展示广告诞生虽然早于搜索广告,但是由于精准性不够高,发展落后于搜索广告。但是从2008年以来,由于展示广告在技术上的突破和创新,展示广告效果得到极大的提高,展示广告在美国的发展速度甚至高于搜索广告。同样,中国在未来几年内展示广告也是一个高速发展。除了技术的创新,另外展示广告跟搜索广告相比,还有两个很大的优势。第一,搜索广告基本上仅限于几家搜索引擎公司,广告商仅仅能被动的等待在用户使用搜索引擎的时候与用户交流。 而网民上网的大部分时间不是在使用搜索引擎。网民可能是在阅读新闻,浏览论坛,上社交网络,看网络视频,或者使用移动应用程序,展示广告在这些场合下都提供了广告商主动的和用户做交流的机会。第二,搜索广告大部分时候是三小行文字。而展示广告往往是一些生动美丽的图片,视频,因此展示广告跟用户的交互性要远远强于几行文字的搜索广告。

        展示广告从2008年以来在技术和理念上的突破最重要的有两点。第一,现在广告商正在从投放媒体的购买到人群的购买转变。广告商最终不是为了购买媒体,而是希望通过媒体来跟他们潜在的客户进行沟通。比如作为Mini-cooper的广告商,他们典型的潜在买主是都市白领,这样他们就非常希望给女性,收入较高的人群投放广告;而作为福特F-150皮卡的广告商,他们希望能给男性,农场主或者小企业主的人群投放广告。因为这样,看到广告的人群才会觉得广告的确很相关,投放的效果才高。第二,广告商可以象股票交易一样通过广告交易平台实时的对每个独立的用户的单独曝光来竞价购买。整个拍卖过程发生在从用户在浏览器中输入网址到内容和广告出来之间的短短几百毫秒。在这短短几百毫秒内,信息会在互联网上跑几个来回。这个过程比较复杂,但是这个过程都是通过象品友这样的广告技术公司的软件自动的智能的完成。软件要决定是不是对这个受众的这次曝光进行竞价,出什么样的价格,以及放什么样的广告创意。实时竞价拍卖对广告商的好处是,广告商会清楚的知道广告商在跟什么样的用户交流和广告会显示在什么样的网站上。而且可以通过这个交易平台,广告商能在无数的网站上显示他们的广告。

        上述两个趋势,无论是人群的购买还是对每个独立用户的实时竞价,都跟数据分不开。展示广告跟搜索广告一样,越来越以数据为驱动。品友作为中国第一数据驱动的展示广告平台公司,在海量的数据处理挖掘的技术研发上走在了最前面。要有效的做海量数据挖掘,我们需要在两方面做出努力。一方面是拥有优良的数据基础设施(data infrastructure),这个方面绝大部分是通过搭建一个云计算平台来实现。另一方面是开发有效的数据处理挖掘算法(data algorithm)和做出精准的预测模型(predictive modeling)。下面我就这两方面分别阐述。

        要对海量数据做分析,我们必须有能对海量数据作存储和计算的数据基础设施。互联网广告技术公司有三种方式获得这样的数据基础设施。一种是自己开发云计算平台软件。Google采用了该策略。但是这种方式需要大量的研发投入,并且需要几年的时间。第二种是租用云计算服务商提供的云计算平台。世界上最常用的云计算服务商是Amazon。不过Amazon没有进入中国市场。现在中国有些公司,比如阿里巴巴和华为,正在推出类似的服务。创业公司在早期可以采用这种方式,但是随着公司的业务发展,数据量和计算量增加,这种方式的性价比会越来越低。第三种方式是自己利用开源的软件搭建云计算平台。品友采取了第三方式。品友用的云计算平台软件是基于Hadoop的软件栈,Facebook, Twitter和LinkedIn也使用了该方式。Hadoop是非常稳定的开源云计算软件栈,而且有非常活跃的开发者和使用者社区。Hadoop已经成为自主搭建云计算平台最常用的选择。

        Hadoop不是一个单独的软件,而是一系列的工具集。而且,往往对某一个任务,Hadoop提供了多个类似但各有侧重的工具,使用者可以根据自己的情况来选择适当的工具。比如对于最常见的一个任务数据传输ETL(Extraction, Transformation, and Load), Hadoop提供了Scribe和Flume工具。品友根据自己的需求选择了Flume,并且在开源的基础上做了针对品友系统环境的优化。这样,品友的日志实时的自动的从Web服务器传到Hadoop的云存储上。而且整个传输过程非常健壮,能很好对付各种各样的故障。

        要搭建一个云计算平台,我们通常需要以下三类工具,数据传输(ETL)工具, 分布式数据分析(MapReduce)工具,和Key-Value存储用来支持实时读写。另外,Hadoop还提供了很多非常有用的工具,比如云计算平台的监测预警工具和工作流管理工具。

        每个广告技术公司在选择工具时,要根据自己业务需求做出选择。更为关键的一步是在搭建好平台后对平台的性能做优化。比如,品友对数据传输工具Flume做了优化,使得Flume的CPU的使用率降到原来的1/4,内存的使用率降到原来的 60%。

        有一个性能优秀的云计算平台,我们需要设计数据挖掘的算法,对数据进行各种各样的处理分析和建立预测模型。这里有两个非常重要的任务,一个是对用户的建模,也就是对用户的兴趣和特点有个准确的认识,另一个是通过对广告的效果的预测来作精准投放。

        用户的建模是一个极其重要的步骤。如果我们的用户模型质量不高,对用户的认识不准确,我们无论怎么利用这个模型也不会有效。品友在这方面做了巨大的努力对于网民的行为进行分析统计建模,知道用户的人口属性,地域分布,长期的个人关注,以及最具商业价值的短期的购买倾向。通过品友的广告投放系统优驰(Optimus),广告商或广告商代理可以选择他们的广告希望被什么样的人群看到,比如一个奔驰广告商可以选择只给白领并且对汽车感兴趣的人投放广告。

        对广告效果的预测是一个广告技术公司的核心问题。品友在广告投放时,通过对每个独立受众的人群属性,广告位特点,和广告物料的特征,实时预测广告投放效果,动态的决定投放什么物料。不仅如此,平台通过投放过程中的实际数据及时调整模型提高预测的准确度。

        另外广告投放并不是一个广告活动的结束。广告商希望看到广告投放数据的分析。品友的优驰系统通过不同的角度对广告投放进行分析。什么样的人看了广告?什么样的人点击了广告,什么样的人看了但没有点击广告,他们之间有什么区别?而且通过对投放效果的分析,投放系统会不断的改进优化预测模型。

        通过以上的分析,我们可以看到互联网广告的投放越来越以数据驱动。通过数据驱动,我们创造用户,媒体,和广告商的三赢局面。对用户来讲,互联网用户看到的确跟用户相关的更有趣的广告。广告给用户带来有用的信息。对于媒体,我们不是通过把一个网页的广告数从10增加到20,一个视频的前贴片从1个变成2个来增加收入,这样会损害该网站的用户体验。我们是提高人群定向精准投放提高每个广告位的价值,让用户看到更感兴趣,更相关的广告,这样我们会在提高网站用户体验的同时,提高网站的收入。对于广告商,我们通过人群定向精准投放来提高广告投放的效果,使得广告主在互联网上做市场营销的效果不断提高。