Archive ← Prev Next →

D5P292-200217

Deep Learning 第三次作业要我们写一个两层的网络,之前写 logistic regression 的时候我能把 loss 降到 0.1,测试准确率 97%,可是加了一层以后 loss 怎么也下不去了(最低 0.26),测试准确率卡在 90%。我后来研究了好久,发现第一层 weights 的梯度很快就全零了。

16 号浪了前半天以后,我开始燃烧大脑,更深入地思考反向传播的逻辑。17 号晚上我自己推导了一遍公式,列出每一层 tensor 的 size,发现自己在尝试把公式从对于单一 input 推广到 batch_size 个 input(第二层 vectorization)的时候,算法确实是错误的。老师的板书是正确的,我把 dz2 给 average over all inputs 以后很多信息就丢失了。

我又花两小时整好了各种矩阵乘法里 size 的问题,还有 debug 向量加法的问题(原来 column vector [2D] 减去 row vector [1D] 会出来一个 square matrix,于是我不得不把 labels 变成一个 column vector,十分蛋疼)。终于我的 2-layer 网络突破了原来的瓶颈,准确率提到了 97.4%,感动啊,感觉自己可以手写神经网络了!

17 号收了 Princeton 的拒信,也不意外,它招人实在太少了,18 年地里只有两个人录了。17 晚上帮 477 写 3620、陪她唠嗑 bio 博士申请,一共搞了 4 小时。477 在港大读了一年以后来到 Vandy。

(注:我最近分析商科同学们特质的时候,发现 042、698 都对人际交往特别敏感,我与对方的互动他们很久都不会忘。所以理论上我也应该训练自己这方面的记忆力,这些个人信息不记在日记里,而是记在脑子里。话说我倒是对数字极其敏感,如果有人报一串数字给我,我也会记得很深很久。)

477 和我讲了很多她面试的事情,她的面试显然比我那两次正式多了,需要去校园,不过食宿全包,可以在城里玩一两天,羡慕啊。477 会在每次面试后给每个教授发感谢信,她写得都好长(我都感觉有点肉麻…),会加入一些和教授对话的内容。她给我分享了教授给她的各种回复,有非常热情的“ hope to see you at [college] ”,还有教授还给她主动发邮件抢人的,也有比较敷衍的。

477 说起 bio 界的竞争:哥大的项目并非很好,但她还是在和一群清北的人竞争。连 bio 都这么可怕了,CS 难成这样也就不奇怪了。还说起各个学校不同的学习氛围,有的偏恶性竞争,有的是互帮互助。

我和 477 说起 MASI 的科研,也从她那儿知道了一些 686 的情况,686 可能想做 bioinformatics,去年暑假是跟着 Dr. Bradley Malin 做的,还发了一篇一作,话题和我去年暑假做的很像(data imputing)。她还给我推荐 bioinformatics 这个方向,天哪这跨度好大…

18 号我在 MASI 整理 training data、继续研究他们的代码。ZB 数据库里 training data 的标注质量比我标的那些低不少,哎。

这周很多博士生都出去开会了,4 点时剩余的博士们都去上课了,我便和 686 聊了一会人生。原来她是想做 CS + healthcare 的,没申实习,也不是很清楚自己想要干啥。

18 晚上我和我的 3250 TA 同事 463 约饭,他是研究生想转商科,申了八九所学校的金融 / 数据分析。他提到一个观点是金融行业的工作不太稳定,经济蒸蒸日上的时候缺人做事,衰退的时候就不需要你了。这种用供需关系分析问题的思路值得学习啊。我说起 WST,他评价是 WST 想忽悠所有人都去搞金融 hhh。