① 3.14 晚上很多人的 Azure 坏了。3.15 在 ensemble 里加入第 3 个模型后,分数创了新高:70.93 / 52.79。这时我发现 ensembling 有两种方法可以尝试,还有几个参数可以调一调(n_best_size、max_answer_length),于是开始调参,看看能不能做到更好。
② 一开始是在 test set 上做 tuning,但我意识到不能这么滥用 test set,于是在 dev set 上搞,结果 prob 表现更稳定,logit 波动大但最好的结果更高,两者平均值差不多。
③ 如果我做 SQuAD,在只能提交 test set 三次的情况下,我应该选用更稳定的 prob,还是有概率能拿更高分数的 logit 呢?这是一个问题。说到这里,那 3 篇关于 FriendsQA 的论文里,有没有严格地只跑 3 次 test set 呢?还是把 test set 当成 dev set,跑 n 多遍取最高值?这个我不得而知。
④ 这也是我学业生涯第一次体会到,某个声称的实验结果可以忽略很多实验的细节,导致可能误导性的结论(参见 The PhD Grind 里关于实验可复现性的讨论)。
⑤ 3.18 凌晨分析 ensemble output,发现有的答案分数莫名地高,我搞了好久,发现是因为之前出现过的答案的分数,在同一个 iter 里会加到后面出现的相同答案的分数上(每个 iter 清空是不够的)。Fix 了这个 bug 以后 F1 反而降低了…
⑥ 3.18 早上申了 NLP 组的一个“大规模语言模型” RA 项目。3.18 晚,和 966 一起肝了 6 小时,写完了 224n,近 5000 词写满了 8 页纸,排版完美。966 这周相对轻松很多,帮了我不少忙,对课题也有很多好的见解。她提到今年每个 quarter 都缩短了 1 周,因为没有 Finals Week 了。
⑦ 做完 224n,我的心情久久不能平复,真是太过瘾了!这是我第一次写这么 substantial 的文章,也让我享受了最纯粹的科研。
⑧ 话说 3.19,Stanford MSCS 放榜了,找我改 Stanford 文书的 4 位同学录取了 2 位:139 和另一位已经决定去 Princeton 读博的大神 zyx。我建了个录取微信群,做了群主,后来加进了超级多 19、20 届的学长学姐,变成了 MSCS 大群。我的微信好友数突破了 800。
⑨ 3.21,一位 nyush 的 NLP 大神学弟从 LinkedIn 上找到我,来问我求比较项目。另外 274 也录了,不过决定去 UT Autsin 读 CV / robotics 的 PhD 了…今年好多 MSCS 录取同学都录了其他 PhD。
⑩ 有几位同学问我 Stanford MSCS 的缺点有哪些,我能想到的有:课程多样性比不上 CMU,科研气息浓厚导致同学们比较“理想主义”。
⑪ 话说我觉得 Stanford CS 系女生很多的原因之一,还是因为现在的 CS 已经越来越 AI、HCI 了,这些都是相对感性的领域,如果 CS 还像 20 年前那样局限于那些硬核的 OS 技能的话,女生的比例肯定会少一些的。
⑫ 3.25 凌晨花 4 小时写好了《我在 Stanford 上 224n(上)》的初稿,交给了夕小瑶团队。本来说分上下篇的,瑶姐看了说“分上下篇的话,上篇会没有多少转发流量,下篇连打开率都没了。都是泪”,于是下篇就另起标题吧。
⑬ 夕小瑶上周写了 2 篇文章都很赞,对比 479 和瑶姐的文章,能明显感觉到 479 充满了学术气息,关注的是有趣的想法;瑶姐的文章则非常现实,都是讲业界需要什么:各岗位的特点,如何和同事合作,如何提高工程能力(当然瑶姐初期也写了不少偏概念的文章)。
⑭ 我 224n 拿了 A(官方数据 64.3% 的人拿了 A-、A、A+),142 拿了 pass。