Archive ← Prev Next →

D5P376-210216

2.13 晚 21:00 ~ 0:30 和 966 写 224n 的 Proposal(大部分是我写的)。996 刚在主机里嵌了个 8GB 的 GPU,用来跑她那个医学图像 lab 的模型,工作效率大大提升。

2.15 继续一起写 proposal(共 2 小时)时,966 的猫把她电脑电源拔断了。761 的 3 人组做 Robust,说 office hour 上 TA 告诉她们,3 人组最好做 Robust,“搞我们心态”。770 带着 745 做他 NLP Group 的 project,“大哥说做啥就做啥”。

224n 的第 9、10 节课是 John Hewitt(我们的 Head TA)上的,讲得太棒了!以前看 paper 看不懂的 Transformer 和 BERT,他讲得真是深入浅出,我很快就明白了。

2.14 在 783 的 clubhouse 局上,761 提到她和 bf 办了个 domestic partner 的证,办很多事都方便多了;和同性朋友也可以办。局上认识了一位 MCDS 同学(868),在上 11797(CMU 竟然有一门专门的 NLP QA 课),说他会看每年的 224n 海报。他还说 MCDS 美本的十几位同学有一半都待在本科学校上网课。

2.14 下午,778 回来了;他还是没找到实习,惊了。2.15,473 和我吐槽她 PhD 申请结果很糟糕;2.25 她录了 UIUC。

2.17 写 224n 作业 5 时,train 没问题,eval 时老出 bug,搞了好久竟然是因为我 torch.save() 保存的是 trainer,而不是 model.state_dict(),神 tm 白训练了 2 个多小时…真服了我自己。

Q2g 的 tensor shape 一直不对又搞了好久,然后迷迷糊糊地可以 train 了,但 train loss 却到了 0.03(正常应该接近 0.55),output 出来都是乱码,我苦思冥想也 debug 不出来,最后竟然是 view 和 transpose 的问题。这次作业写了 25+ 小时…

作业 5 是今年新出的(这也意味着很多题目说的都不太清楚,TA 们还写了篇很长的 clarification),第一部分探索 multi-head attention,第二部分探索 pretraining,都是非常新的概念,不禁让人感叹 NLP 发展之快。实际上,我暑假从《数学之美》上学的很多 NLP 概念都“过时”了…

2.19 作业 5 已经 due 了,但 2.20,224n 的 OH 排起了近 50 人的长队(学生总数 475),太可怕了。966 说 John 大神严重高估了同学们的能力,对此很愧疚;他本来甚至想 Encoder、Decoder 也让我们自己写,被其他 TA 制止了。

2.17、18,774、761 分别过了 23 岁生日。2.19 晚上聚餐,聚餐期间桌子半边的女生(763、776、799)疯狂聊各种电视剧、明星;桌子另半边的我、774、770、564 听着一脸懵逼。

饭后打七鬼、玩真心话,玩着玩着就直接变成 776 提问、大家挨个回答了。她问了(1)怎么走出第一次失恋的;(2)母亲教会最重要的事情是什么。感谢 776,这波让大家对彼此的成长的轨迹都有了深刻得多的了解。