数据分析[9.4]
前天得到Maggie提示,又豁然开朗一处可以提高性能的地方,就是一个pair并不用考虑成两个样本点。于是再采用分层分类的方法,又把position扩到了5个以增加权值,使F-measure已经达到了0.589
但是这整套方法能不能再提高实在不好说了,因为今天又试出了只采用有include/adjacent关系的pair selection的最大上限:
-------------------------------
TYPE answer result same
ART: 148 19 19
GEN-AFF: 374 273 231
ORG-AFF: 472 408 369
PART-WHOLE: 526 465 428
PER-SOC: 180 80 75
PHYS: 399 97 87
NONE: 0 0 0
precision: 1209/1342 = 0.900894
recall: 1209/2099 = 0.575989
f-meature: 0.702703
extracted 1342/2099 relations
-------------------------------
也就是说,只有一半多一点的pair是include/adjacent关系的,而选择NONE/NOT-NONE关系我认为是RE问题的最大问题,也就是说只要/有找到一种比include/adjacent的pair selection更好的方法,性能就会/才会有大改进,我现在就是这么认为的。Maybe Maggie关于String Similarity的推荐可以work for it.
-----
昨天托wt推荐的一位天大师兄投了份简历给百度,希望我够好彩,人品+++
-----
昨天还参加了Polyu的体适能测试,结果除了皮下脂肪少以外其他全面很差,综合评分才2分,居然还发了个苹果。sigh~~~锻炼身体势在必行了啊
-----
试了半天弄出这个语句还适合我的需求
cat access.log |grep ^[^1].*zmime.html |less
但是这整套方法能不能再提高实在不好说了,因为今天又试出了只采用有include/adjacent关系的pair selection的最大上限:
-------------------------------
TYPE answer result same
ART: 148 19 19
GEN-AFF: 374 273 231
ORG-AFF: 472 408 369
PART-WHOLE: 526 465 428
PER-SOC: 180 80 75
PHYS: 399 97 87
NONE: 0 0 0
precision: 1209/1342 = 0.900894
recall: 1209/2099 = 0.575989
f-meature: 0.702703
extracted 1342/2099 relations
-------------------------------
也就是说,只有一半多一点的pair是include/adjacent关系的,而选择NONE/NOT-NONE关系我认为是RE问题的最大问题,也就是说只要/有找到一种比include/adjacent的pair selection更好的方法,性能就会/才会有大改进,我现在就是这么认为的。Maybe Maggie关于String Similarity的推荐可以work for it.
-----
昨天托wt推荐的一位天大师兄投了份简历给百度,希望我够好彩,人品+++
-----
昨天还参加了Polyu的体适能测试,结果除了皮下脂肪少以外其他全面很差,综合评分才2分,居然还发了个苹果。sigh~~~锻炼身体势在必行了啊
-----
试了半天弄出这个语句还适合我的需求
cat access.log |grep ^[^1].*zmime.html |less