Archive ← Prev Next →

D5P288-200205

5 号在 MASI 由于 CPU 被占满,电脑很卡,我就没做标注,继续研究 DeepLab 的代码、看看 paper 和 PyTorch 教程。看的 paper 包括 498 发我的几篇,还有一些我自己找到的引用量破万的经典 ML 论文。

哪怕不做科研,在 lab 里面学习也是很不错的,因为有个学习氛围,而且也能旁听博士生们有趣的对话。坐我左边的老哥是北理工硕士毕业过来的,此人负能量强大,喜欢口吐芬芳,经常抱怨生活在摧残他。467 和他讨论了一些绿卡、追妹子、教职的事情。

我和 498 讨论了我对研究的想法,我觉得 ML 是一个有很多探索空间的东西,有很多元素可以优化改进:loss function, activation function, data augmentation, 网络结构的选择和设计等等。498 回复说,我先要搞清楚想解决什么问题,再想用什么方法。除了上周提到的 class imbalance 和 outlier,他还提了个想法是可以只标一个 3D 图像里比如十分之一的 slices,让算法来 fill the gap。

我和 467 讨论的结果是,纯粹的主动脉识别比较轻松,也没什么意义。我们可以和医生交流,获得研究方向的灵感。比如算血管直径来评估病人的健康情况。

之后 498 说到老板:本来申请了 multiorgan 的 grant,现在又把多器官项目拆成 aorta、liver、pancreas…继续申请经费。498 现在在做的一个项目是根据肾脏的图像预测有没有糖尿病。他觉得老板想把很多新项目给他做、让他开路,等新人来了再交给后来人继续。

今天我知道了 478 那篇关于肺癌检测的一作 paper 是跟着“强哥”(497)做的,478 上学期和 498 做的是“ spleen validation ”, 做的是比较简单的数据分析,发到了一篇 radiology 的会议,498 评价这种 paper 十年都不会有 10 个 citation…

6 号标了数据 4、5;之后我问了 497,他博士以来一直在做肺癌检测的项目,做了两年了,他说这是个很难的任务,现在还有不少未解决的问题。478 的一作是他们两人一起讨论以后得到的想法,大致原理是通过其他病变的检测来协助肺癌的探测(internal-transfer weighting)。

不过 497 说医生提的问题会普遍偏难,需要长期地做,也会偏临床一些,建议我可以只是参考医生的建议,先做更 CS 的东西。后来我在和老板讨论的东西列表上说了这一点,498、467 说我这样写他肯定会不高兴,诶我差点把这忘了……那是该听医生的还是老板的呢?

6 号还看到了 467 发的一篇论文(1911.05113),是关于“图像分割质量保证”的,用的技巧叫半监督学习,如果没有 ground truth 就手动给电脑的标注结果打分,作为反馈。方法还有改进的空间,467 提到 GAN?这是篇 7 页的 conference paper,467 说他可以把同样的想法展开、做些更全面的实验,写一篇大的 journal paper。

7 号我终于开始明白 Atrous Convolution(空洞卷积)是啥概念了。498 说 467 要接管主动脉项目了;我想和老板讨论可以做什么 project,498 说老板应该有大概的想法了,下周应该会叫我们过去开个会。后来继续旁听博士生们的对话:

(1)他们评价说国内人现在的状态(只能成天窝在家里)不就是留学生的日常吗,笑死我了。

(2)他们的工作是辛苦的 996/997,497 评价说每周来 5 天的效率不会差于每周来 7 天,467 说那你试试看,众人皆笑。

(3)实验室下个学年会有个中国女生加入,不过老板为了 diversity 还是想少招一些中国人。498 说中国人在和老板沟通、理解老板方面,还是相对占劣势。

(4)有个医学图像 ML 的比赛叫 ISIC,他们说排名最高的算法都是把分开训练的几十个模型结合起来(ensemble)。

(5)最重要的是我更深了解了博士生们的 exit options,498 说他这个暑假可能不做实习了,原因之一是论文数量不够。明年暑假再找。原来他们虽然读的是 CS PhD,实习只好找医学研究方面的,要能发 paper 的那种,发不了的话也得大致上能帮助毕业,不会去找 SWE 实习的。

即使能找 SWE 也不划算,本科毕业开始做码农的,四五年已经做到组长了(注:好像有个 13 年 MASI 毕业的妹子,16 年加入了 Google)。回国找 CS 工作呢?国内的算法工程师,硕博的工资区别也不大。这无疑给我泼了一盆冷水——经历动力高涨的两周,我又回到了去年 10 月预测的“未来一年都会在读不读博之间摇摆”的状态。

这和 Philip Guo 的经历完全不同啊,他从博一就开始暑假在狗狗做实习、在 MSR 做研究。知乎上 UMD 那位 ML 博士求职怎么就拿到那么多行业的 offer 呢?MASI 的人都挺厉害的,有很多 ML 的经历,做的都是很要智商的工作,他们不该是高端人才嘛,怎么会找不到工作呢?

是不是因为他们做的 ML 不是纯 ML 呢?毕竟他们投的会议主要是医学图像类,唯一参加的 CS 会议也就 CVPR。MASI 并不做 ICML、NIPS 之类顶级 ML 会议的投稿。天哪,去年暑假我能参与一篇 NIPS 的论文,看上去还是比 SPIE 高级一些的!如果一篇 ICML 的一作是顶级 ML 实验室的入场券,我怎么能在 Vandy 做到呢??

你看,过去 12 天我写了 3300 字在 MASI 的所见所闻,加上 17 号的日记就 4400 字了。做实际的项目学到的东西,比上课多太多了!《WSO 面指》说,刚入职的分析师在前 3 个月里收获的成长,比本科 4 年还多,这是有道理的。There’s still so much to learn!