我为什么对数据科学感兴趣
今晚惊闻在北京工作时对接的地产甲方已经快破产了。当时的同事发来新闻,我们主攻的项目没落地,其他几个当时(2016年底)搞得热热闹闹的项目也资不抵债。
国内搞服务业就是这样,政策大于天,16年初说要搞文化旅游,全国上下几百个文旅小镇,我们这种辣鸡咨询公司(一个团队的人全大学刚毕业,几十万的项目跟做大创一样)项目一个接一个的拿;后来17年底了吧突然又出政策限制文旅小镇,纷纷关停,我司大概裁掉了一半人,从一个窗明几净的写字楼顶层,搬到连窗户都没有的小房间。
我们公司负责前期可行性分析,但已经开工的项目哪有什么可行不可行,red flag哪哪都是,话还是要捡好听的讲。中期汇报被骂了几次,但最终可算是拍到了甲方大老板的马屁上,财务测算欣欣向荣,千载难逢的好机会,赶紧投产,时不我待!
我后来有一次问同学,这种只为了哄对方开心拿项目款、完全顾不上五年后项目能不能落地的行为,算欺诈了吧。同学说,国内咨询都这样的,骗来骗去,花钱买个心安,要不怎么促进GDP。
当然这个问题我当时也问不出来,因为当时没空考虑ethnics,真的,人生第一份全职工作特别想做好,但就是拳头打到棉花上,不知道怎么做。国内民企没什么入职培训,我第一天投了简历第三天就面了试,第五天入职,老板扔来两本金字塔原则,也不管你看不看,直接就让我进了项目组。
老板本人是在北京一穷二白打拼出来的,但也自带着创业者的狠劲——他并不信任任何人。我们当时50多人的公司,他事无巨细都要管,彩虹合唱团唱的那句“下午六点半,老板说要开个会”就是我司最真实的写照,也不是他就是掐点鸡贼,而是他白天都去见客户了,自然只有晚上来验收我们的工作。
你们觉得前一阵那个微商让让设计师做100版图很过分?我们的日常也是这样,因为老板说不出什么是对的,但他知道什么不对,于是就一版一版做,做完了六点开会,不行,继续改,九十点吧再汇报一次。开头说的那个项目截止前一个月,我连续上了21天班,每天都是0点之后回家,大年三十下午还在上班,春晚开始了我开始往机场跑,在空中过了年。
那时候心里没什么家国大爱,每天很简单,就想着不要猝死啊,不要猝死啊。
就这样磨蹭磨蹭,蹭出一个差不多的东西给甲方看。我们第一次汇报时被骂了个狗血喷头,甲方大老板直接对着我们说,我给你八十万就是让你做这种狗屎东西?但合同已经签了,有什么办法,对面一个经理过来安慰我们,然后悄悄说我们大老板喜欢国外的那些艺术的东西,你们看着能不能往那边靠。
于是我们如获至宝,我这种英语勉强矮子里拔将军的立刻被发往research前线,一天pitch十个国外高端艺术节/旅游小镇,晚上给老板present,老板说伦敦西区不行,太高端了,Austin那个西南偏南可以,都是小城市(我们项目地也是),这个写进PPT,还有呢?
那还是我第一次听到Austin。
但这种蒙混过关的工作方式,延续了整整一年。没有solid research,市调是问卷星上发的,财务测算是拍脑袋想的,整个项目没有任何数据,亮点是外语案例分析。
甲方的经理诚不我欺,我们充斥着爱丁堡艺术节/法国狂人节的PPT很受大老板喜欢,甲方大手一挥付了尾款,还诚邀我们为另外两个搞得大张旗鼓的项目提建议。项目组的我们呢,一头雾水地过了关,来不及想五年后这个项目究竟会不会破产、甲方会不会拿着项目书来找我们麻烦,没想过,几个年轻人热热闹闹去虎坊桥吃了涮肉,感叹终于可以过几天六点下班的日子了。
但我仍然记得拿着那份报告去汇报时的惶恐感。整个报告对我而言就是一个我想含混过关的巨大漏洞,我怕极了甲方问我一句,你为啥要在这里搞这个东西,我没办法甩一个significant test过去,说你看,p-value小于0.05哦,显著哦。
这也是我认为国内商科设置普遍鸡肋的根源问题。我学过高数、学过统计,但真正开始做项目的时候没有一个人想到要去用它,因为学的时候没有人告诉你在business setting里significant test是干什么的。课后题我都会做,考试也能刷A,所以呢?
还有管理学呢,学什么?背3P5P7P原则,背完有个屁用,完全和实战脱节。我上大学前觉得带“战略管理”四个字的课都可厉害了,一听就运筹帷幄,现在想想四年都是bullshit,你让一群从高考战场里钻出来的小孩学什么战略管理?先安身立命吧。
而当我在美国第一次上到data science的课时(那时候我已经硕士第一年下半学期了),我是真真正正的被惊艳到了。我惊叹所有半懂不懂的algorithm竟然可以用来解决这么重要的问题,而且最重要的是,it totally makes sense to me!! 那也是我第一次在汇报时觉得底气十足,accuracy高就是有发展潜力,bayes decision boundary 那么优美简洁有力,数据就是力量,数据就是一切证据!
再后来,我们又在课上接触到大数据的伦理问题,比如银行的已有数据就是证明,你是低收入人群你很容易还不上贷款,那如果我单纯用这个模型,的确坏账率低了,可低收入人群获得资源的机会也就越来越少。
我们课上另一个例子就是facebook的政治campaign,老师说你们猜FB根据什么给你推送党派广告?我说假如我经常发性别平权/种族平等等等post,FB就会给我推共和党?
老师神秘一笑,都不是。话锋一转,你玩过FB的小游戏吗?
就是前一阵子很是风靡的那种,测测你在90年代是什么电影明星,谁都觉得无伤大雅图个乐呵,但FB记录了你的和政治倾向相关的很多细节,然后把这个信息卖了出去,政治campaign公司再根据大数据推算应该给你看什么广告。这只“无形的手“就这样(arguably)影响了16年大选。
这个案例对我的影响是,我再也没有做过任何微信的测试分享,再到后来的换脸APP,看老年的你长什么样……不寒而栗。
具体案例暂且不谈,只是这些源源不断的讨论令我觉得,数据像是一个无穷无尽的魅力深渊,它越精准便越有价值,但也同时越危险。这种没有尽头的探索令我完完全全地叹服。我觉得它太奇妙了,太美了,太美了。
于是硕士第二年的我疯狂修了各种数据科学的课,硕士论文也写的用机器学习预测销售需求,非常快乐,比本科时对着辣鸡战略课题挤字数快乐得多。当然我不是说转数据完全轻松快乐,我是文科生,我来美国前没写过任何一行代码,刚开始学for loop的时候就是整不明白,一定要一个一个数着循环。还好入门的两门课的老师都特别特别好,耐心、循循善诱(配合大量写到怀疑人生的作业),让我一开始的底子打得比较顺利,后来当然也遇到过建模建到头秃的时候,没有关系,为自己喜欢的事情头秃也是一件乐事。
我记得当时写论文最快乐的一件事,就是在R里给自己的图表试各种各样ggplot的配色,十几个十几个试,乐此不疲。(然后导师说毕业论文不让用完彩色的,你全调成灰的吧
不过现在的我还是没有找到工作。我知道人人都在说数据科学人才缺口巨大,我自认为对机器学习的了解和统计底子应该不会低于求职市场平均线,但就是快半年了,还是没有找到工作,简历可能第一行education in business school就被刷掉了……
但我也知道,即使我每天在豆瓣喊喊喊丧到不行,我心里还是很感激2018年春季那个因为机缘巧合来我校做了visiting lecturer的Google的产品经理。他带我看到的一整个灿烂的、由数据搭成的坚实的世界,彻彻底底地改变了我的人生。
有什么能比终于找到了自己喜欢的事情更快乐的事呢?一想到这里,我又觉得心里充满了感激,也觉得这个漫长的冬天,似乎没那么寒冷了。