Jazon Jiao · D5p383

① 3.14 晚上很多人的 Azure 坏了。3.15 在 ensemble 里加入第 3 个模型后，分数创了新高：70.93 / 52.79。这时我发现 ensembling 有两种方法可以尝试，还有几个参数可以调一调（n_best_size、max_answer_length），于是开始调参，看看能不能做到更好。

② 一开始是在 test set 上做 tuning，但我意识到不能这么滥用 test set，于是在 dev set 上搞，结果 prob 表现更稳定，logit 波动大但最好的结果更高，两者平均值差不多。

③ 如果我做 SQuAD，在只能提交 test set 三次的情况下，我应该选用更稳定的 prob，还是有概率能拿更高分数的 logit 呢？这是一个问题。说到这里，那 3 篇关于 FriendsQA 的论文里，有没有严格地只跑 3 次 test set 呢？还是把 test set 当成 dev set，跑 n 多遍取最高值？这个我不得而知。

④ 这也是我学业生涯第一次体会到，某个声称的实验结果可以忽略很多实验的细节，导致可能误导性的结论（参见 The PhD Grind 里关于实验可复现性的讨论）。

⑤ 3.18 凌晨分析 ensemble output，发现有的答案分数莫名地高，我搞了好久，发现是因为之前出现过的答案的分数，在同一个 iter 里会加到后面出现的相同答案的分数上（每个 iter 清空是不够的）。Fix 了这个 bug 以后 F1 反而降低了…

⑥ 3.18 早上申了 NLP 组的一个“大规模语言模型” RA 项目。3.18 晚，和 966 一起肝了 6 小时，写完了 224n，近 5000 词写满了 8 页纸，排版完美。966 这周相对轻松很多，帮了我不少忙，对课题也有很多好的见解。她提到今年每个 quarter 都缩短了 1 周，因为没有 Finals Week 了。

⑦ 做完 224n，我的心情久久不能平复，真是太过瘾了！这是我第一次写这么 substantial 的文章，也让我享受了最纯粹的科研。

⑧ 话说 3.19，Stanford MSCS 放榜了，找我改 Stanford 文书的 4 位同学录取了 2 位：139 和另一位已经决定去 Princeton 读博的大神 zyx。我建了个录取微信群，做了群主，后来加进了超级多 19、20 届的学长学姐，变成了 MSCS 大群。我的微信好友数突破了 800。

⑨ 3.21，一位 nyush 的 NLP 大神学弟从 LinkedIn 上找到我，来问我求比较项目。另外 274 也录了，不过决定去 UT Autsin 读 CV / robotics 的 PhD 了…今年好多 MSCS 录取同学都录了其他 PhD。

⑩ 有几位同学问我 Stanford MSCS 的缺点有哪些，我能想到的有：课程多样性比不上 CMU，科研气息浓厚导致同学们比较“理想主义”。

⑪ 话说我觉得 Stanford CS 系女生很多的原因之一，还是因为现在的 CS 已经越来越 AI、HCI 了，这些都是相对感性的领域，如果 CS 还像 20 年前那样局限于那些硬核的 OS 技能的话，女生的比例肯定会少一些的。

⑫ 3.25 凌晨花 4 小时写好了《我在 Stanford 上 224n（上）》的初稿，交给了夕小瑶团队。本来说分上下篇的，瑶姐看了说“分上下篇的话，上篇会没有多少转发流量，下篇连打开率都没了。都是泪”，于是下篇就另起标题吧。

⑬ 夕小瑶上周写了 2 篇文章都很赞，对比 479 和瑶姐的文章，能明显感觉到 479 充满了学术气息，关注的是有趣的想法；瑶姐的文章则非常现实，都是讲业界需要什么：各岗位的特点，如何和同事合作，如何提高工程能力（当然瑶姐初期也写了不少偏概念的文章）。

⑭ 我 224n 拿了 A（官方数据 64.3% 的人拿了 A-、A、A+），142 拿了 pass。

D5P383-210316