AI challenger 参会记录

答辩听了观点型阅读理解和细粒度情感分类两个,相对来说后者更加干货满满,大佬云集的,基本上代表了国内 NLP 的四座大山,清/北/中科院/哈工大。造成前者干货较少的主要原因作为主持人的搜狗大佬也说了, BERT 的提出在阅读理解这样更加需要上下文理解任务的提升实在太多,使得选手的其它工作都黯然失色,导致大家的模型都趋向同一化。而 BERT 对于分类任务的提升就相对较少了,所以下午的答辩显得更加丰富,各种操作和 trick. 但也有选手说 BERT 作为单模型对这个分类任务依然能取得很不错的效果,所以 BERT 是真强啊

因为答辩的屏幕是真小,根本看不清楚。。所以记录会很零散,也许只是些关键词,后续还需要自行 google.

观点型阅读理解

取得好成绩的主要操作: 通过简单的正则匹配将三个观点转化为作为 "正/负/无法确定" 的三分类问题。训练集中 95% 的数据可以很准确的转化为这种形式,还有 5% 的是实体类问题,比如 "韩国/美国/无法确定",有选手的做法是将 query 中对两个实体进行排序,比如韩国在前,美国在后。同样对应的 answer 就是 "韩国/美国/无法确定". 将文本理解的问题,转换为分类问题之后,对整个模型的复杂度需求就降低太多了。但事实上,这是数据 bug ...

模型关键词:
- BERT
- multiway attention + R-Net - RCZoo
- 浙大大佬的:多层 LSTM 模型,浅层+主要+深层 三个 loss 优化。具体忘了拍照,以及真的看不清楚。。
- 基于 query 的 attention 还是基于 passage 的 attention 作为最终的 answer selection/matching.

说句不马后炮的话,这里面大部分我也都想到了啊,只是做与没做,以及用与没用 BERT 。。。

细粒度用户评论情感分析

seq2seq

选手这么做的原因是 他觉得各个 粒度 之间存在一定的关联,所以采用 decoder 的形式能有效的利用这些信息。很神奇的操作,是否真的有效朱小燕老师有问到,好像作者并没有做对照实验。

  • ELMo 提升最多
  • 改进的注意力机制,其实就是 multi-head attention
  • PRAUC 损失函数, 这个我好像在哪儿见过,我不记得了


大佬感觉可以发 paper 了。。

others

其他的也很强,但没有 seq2seq 这么具有特殊性,所以可以一起说。

词嵌入部分微调,没太懂? 哪一部分微调,以及非监督的情况下,如何保证微调的程度

F1 指标的优化,这个对于 unbalanced 数据看起来比 过/欠 采样有效。以及刘洋老师提到的可以基于 rainforce 对 F1 进行优化

附上刘洋老师照片一张,侧脸看起来真像李健啊,都是清华男神吧~

伪朴素贝叶斯特征,PPT 里面说的很清楚~每次输入几个样本其提取的是局部特征,而伪朴素贝叶斯特征能体现一个词的全局特征。感觉很棒啊

数据增强方式:
- drop words 随机 mask
- shuffle words 打乱词序
- 组合增强策略
- 对抗训练

模型集成: - 贪婪式模型选择
- 简单概率平均,最后采取了这种。。。anyway

根据验证集调整分类阈值,对当前的验证集当然会有较大提升。但是对于 测试集 可能出现过拟合,引入正则化和 Ensamble 策略。

\[b_i^j=\text{argmax}_b[\text{marco-}F_1(S^j[:,i]+b)-C|b]\]

第 j 个情感要素第 i 类别上的偏置, C>0 为正则系数。

还有些关键词,有些来不及拍照。。
- BiSRU
- 未完待续。。