① 5 号在 MASI 由于 CPU 被占满,电脑很卡,我就没做标注,继续研究 DeepLab 的代码、看看 paper 和 PyTorch 教程。看的 paper 包括 498 发我的几篇,还有一些我自己找到的引用量破万的经典 ML 论文。
② 哪怕不做科研,在 lab 里面学习也是很不错的,因为有个学习氛围,而且也能旁听博士生们有趣的对话。坐我左边的老哥是北理工硕士毕业过来的,此人负能量强大,喜欢口吐芬芳,经常抱怨生活在摧残他。467 和他讨论了一些绿卡、追妹子、教职的事情。
③ 我和 498 讨论了我对研究的想法,我觉得 ML 是一个有很多探索空间的东西,有很多元素可以优化改进:loss function, activation function, data augmentation, 网络结构的选择和设计等等。498 回复说,我先要搞清楚想解决什么问题,再想用什么方法。除了上周提到的 class imbalance 和 outlier,他还提了个想法是可以只标一个 3D 图像里比如十分之一的 slices,让算法来 fill the gap。
④ 我和 467 讨论的结果是,纯粹的主动脉识别比较轻松,也没什么意义。我们可以和医生交流,获得研究方向的灵感。比如算血管直径来评估病人的健康情况。
⑤ 之后 498 说到老板:本来申请了 multiorgan 的 grant,现在又把多器官项目拆成 aorta、liver、pancreas…继续申请经费。498 现在在做的一个项目是根据肾脏的图像预测有没有糖尿病。他觉得老板想把很多新项目给他做、让他开路,等新人来了再交给后来人继续。
⑥ 今天我知道了 478 那篇关于肺癌检测的一作 paper 是跟着“强哥”(497)做的,478 上学期和 498 做的是“ spleen validation ”, 做的是比较简单的数据分析,发到了一篇 radiology 的会议,498 评价这种 paper 十年都不会有 10 个 citation…
⑦ 6 号标了数据 4、5;之后我问了 497,他博士以来一直在做肺癌检测的项目,做了两年了,他说这是个很难的任务,现在还有不少未解决的问题。478 的一作是他们两人一起讨论以后得到的想法,大致原理是通过其他病变的检测来协助肺癌的探测(internal-transfer weighting)。
⑧ 不过 497 说医生提的问题会普遍偏难,需要长期地做,也会偏临床一些,建议我可以只是参考医生的建议,先做更 CS 的东西。后来我在和老板讨论的东西列表上说了这一点,498、467 说我这样写他肯定会不高兴,诶我差点把这忘了……那是该听医生的还是老板的呢?
⑨ 6 号还看到了 467 发的一篇论文(1911.05113),是关于“图像分割质量保证”的,用的技巧叫半监督学习,如果没有 ground truth 就手动给电脑的标注结果打分,作为反馈。方法还有改进的空间,467 提到 GAN?这是篇 7 页的 conference paper,467 说他可以把同样的想法展开、做些更全面的实验,写一篇大的 journal paper。
⑩ 7 号我终于开始明白 Atrous Convolution(空洞卷积)是啥概念了。498 说 467 要接管主动脉项目了;我想和老板讨论可以做什么 project,498 说老板应该有大概的想法了,下周应该会叫我们过去开个会。后来继续旁听博士生们的对话:
⑪ (1)他们评价说国内人现在的状态(只能成天窝在家里)不就是留学生的日常吗,笑死我了。
⑫ (2)他们的工作是辛苦的 996/997,497 评价说每周来 5 天的效率不会差于每周来 7 天,467 说那你试试看,众人皆笑。
⑬ (3)实验室下个学年会有个中国女生加入,不过老板为了 diversity 还是想少招一些中国人。498 说中国人在和老板沟通、理解老板方面,还是相对占劣势。
⑭ (4)有个医学图像 ML 的比赛叫 ISIC,他们说排名最高的算法都是把分开训练的几十个模型结合起来(ensemble)。
⑮ (5)最重要的是我更深了解了博士生们的 exit options,498 说他这个暑假可能不做实习了,原因之一是论文数量不够。明年暑假再找。原来他们虽然读的是 CS PhD,实习只好找医学研究方面的,要能发 paper 的那种,发不了的话也得大致上能帮助毕业,不会去找 SWE 实习的。
⑯ 即使能找 SWE 也不划算,本科毕业开始做码农的,四五年已经做到组长了(注:好像有个 13 年 MASI 毕业的妹子,16 年加入了 Google)。回国找 CS 工作呢?国内的算法工程师,硕博的工资区别也不大。这无疑给我泼了一盆冷水——经历动力高涨的两周,我又回到了去年 10 月预测的“未来一年都会在读不读博之间摇摆”的状态。
⑰ 这和 Philip Guo 的经历完全不同啊,他从博一就开始暑假在狗狗做实习、在 MSR 做研究。知乎上 UMD 那位 ML 博士求职怎么就拿到那么多行业的 offer 呢?MASI 的人都挺厉害的,有很多 ML 的经历,做的都是很要智商的工作,他们不该是高端人才嘛,怎么会找不到工作呢?
⑱ 是不是因为他们做的 ML 不是纯 ML 呢?毕竟他们投的会议主要是医学图像类,唯一参加的 CS 会议也就 CVPR。MASI 并不做 ICML、NIPS 之类顶级 ML 会议的投稿。天哪,去年暑假我能参与一篇 NIPS 的论文,看上去还是比 SPIE 高级一些的!如果一篇 ICML 的一作是顶级 ML 实验室的入场券,我怎么能在 Vandy 做到呢??
⑲ 你看,过去 12 天我写了 3300 字在 MASI 的所见所闻,加上 17 号的日记就 4400 字了。做实际的项目学到的东西,比上课多太多了!《WSO 面指》说,刚入职的分析师在前 3 个月里收获的成长,比本科 4 年还多,这是有道理的。There’s still so much to learn!