Archive ← Prev Next →

D5P367-210111

《Recsys Research Project (3)》

1.4,我向 Susan 简单展示了我的 Path Analysis 成果。当然,Susan 认为汇报不是很有效的沟通方式,她说 Amazon 在尝试新的开会方式,读文件取代了汇报,然后自由讨论。我倒是觉得读文件比听汇报更容易走神,有利有弊吧…这次 Susan 相比上次轻松地多,还说了一些自己的经历。她提到没有很多关于分析用户行为的文章资料。

新年前后的差不多半个月,709 主要分析了 2WFE 和 FM 模型的性质和效果,最后的结论是它们各有优劣,做了各种表格我也没法看懂。

Freadom 这个 app 里有很多需要推荐的模块,比如“ Today For You ”是每天产出的固定的推荐项目,不管用户是否登录,都会每天给每个人产出这些推荐;“ Recommended Stories ”是另一套系统,具体运作方式未知;“ Recommend On Completion ”是每看完一篇文章后推荐的下一篇。

就像 YouTube,推荐分主页的视频列表,也分针对用户观看的某个视频产出的列表,两者侧重点并不相同。网易云音乐、Amazon 也有各种不同行为的推荐模块。网易云的日推里不会出现已经收藏的音乐;心动模式则是已收藏和没听过的歌混着放。

Susan 下学期(2021 春)打算开一门课叫“ ALP 301: Data-driven Impact ”,5 ~ 6 人组队用 1 学期时间,和一个外部机构完成一个项目;项目列表就包括了 S2M 的推荐系统。我心里很疑惑,既然可以这样,为啥要招我来呢。另外,这个操作感觉像是,学生交学费帮资本家打工啊。

1.11 晚上,我在 train 模型的时候,PyTorch 的 DataLoader 出了问题,总是卡住。709 问我进度的时候我才告诉他;我感觉他最近比较忙(之前几次发消息都不回),而且我天性不想因为这种技术细节打扰别人,所以没有主动和他说。不过 709 很耐心地帮我 debug,经过大概 1 个小时,终于发现了问题所在。

开学第一周,本来应该开始搞推荐模型了,但 709 让我继续做 Path Analysis 的延伸工作,叫“ Path Experiment ”,简单来说就是分解用户和他们每周活跃度形成的矩阵。

我总是觉得做这个东西没啥意义,但又没有精力主动反抗,因为我对项目还没那么熟悉,并不能说出一套完整的逻辑证明它没意义,也不知道我反之应该做什么。如果要我处理和 709 对于要完成什么工作产生的矛盾,那对我的精力消耗,将让我每天的工作时间实际上加倍,达到 8 小时,在上学期间这是我难以承受的。于是我就被动、麻木地计算他要的数据,1.14、15、18、19 一直在算各种评估指标。

(来自知乎:“你做过什么大家都反对的技术决断,并且力排众议执行了,后来证明你是对的 / 错误的?评判标准是什么?”培养软实力还有很长的路啊,而且我又要说了,以前读了那么多职场的文章,结果发现要培养软实力,光读没啥用,得靠在真正的环境里磨练。)

一次 meeting 上,我知道了这个东西是 Susan 有次可能随意提了一下的思路,709 自己解读了一下就扔给我了。709 展示了他的 project 计划,写得各种不清楚(比如“ Path Experiment ”是啥),Susan 都说看不懂,更别说我了。

像我们 CS 课的作业,即使要求讲得已经非常清晰了,同学们还是会有各种问题,而且我们可以问各路 TA(今年 224n 有 23 位 TA);而实际工作中,指示又模糊,求助的渠道又很有限,就很蛋疼。

Susan 还提到,很多时候一个项目做了几个月,甚至几年,虽然看上去获得了不少成果,但最后发现又回到了最开始的地方;打破瓶颈关键是要“ go off the hamster wheel ”。确实,刚入 lab 时我看 Rina、709 加一些其他人已经搞了 1 年多,做了好多分析,还纳闷我来能干啥,原来一个项目“停滞不前”是一种常态?

想起在 MASI 时 Landman 把图像切割项目反复做;PG 的 The PhD Grind 里第 3 年 Klee-UC 项目最终跨了 5 年才成功、退出的搜索算法项目后来“葬送”了 2 位 PhD 学生几年的时间;458 说过实习第 1 个月做的事情和之后 n 个月“大同小异”,我对一个项目的周期又突然有了更深的见解。回看 D5P222,我又产生了很多共鸣,想起亚麻面试考的 LP,我真切体会到它们在工作中的实用性…

1.19,我继续尝试着开始真正推荐部分的工作,但要加入现有的 workflow 并不容易。之前我的任务都是独立的,现在我需要决定是试图理解 709 杂乱无章的 notebook,还是自己重写。

话说 pkl 是个神奇的东西,19 年暑研我要知道有它的话,就不用花那么多心思精简 csv 了,直接用 pkl 打包。

(上篇:D5P363,下篇:D5P369