快速注册

数据分析[9.4]

NULL 2008-09-05 16:17:56

前天得到Maggie提示，又豁然开朗一处可以提高性能的地方，就是一个pair并不用考虑成两个样本点。于是再采用分层分类的方法，又把position扩到了5个以增加权值，使F-measure已经达到了0.589
但是这整套方法能不能再提高实在不好说了，因为今天又试出了只采用有include/adjacent关系的pair selection的最大上限：
-------------------------------
TYPE answer result same
       ART: 148 19 19
   GEN-AFF: 374 273 231
   ORG-AFF: 472 408 369
PART-WHOLE: 526 465 428
   PER-SOC: 180 80 75
      PHYS: 399 97 87
      NONE: 0 0 0
precision: 1209/1342 = 0.900894
recall: 1209/2099 = 0.575989
f-meature: 0.702703
extracted 1342/2099 relations
-------------------------------
也就是说，只有一半多一点的pair是include/adjacent关系的，而选择NONE/NOT-NONE关系我认为是RE问题的最大问题，也就是说只要/有找到一种比include/adjacent的pair selection更好的方法，性能就会/才会有大改进，我现在就是这么认为的。Maybe Maggie关于String Similarity的推荐可以work for it.
-----
昨天托wt推荐的一位天大师兄投了份简历给百度，希望我够好彩，人品+++
-----
昨天还参加了Polyu的体适能测试，结果除了皮下脂肪少以外其他全面很差，综合评分才2分，居然还发了个苹果。sigh~~~锻炼身体势在必行了啊
-----
试了半天弄出这个语句还适合我的需求
cat access.log |grep ^[^1].*zmime.html |less

回应转发赞收藏

NULL (北京)

嘞是web：http://www.lessweb.cn Website: http://www.binfer.net

数据分析[9.4]

热门话题 · · · · · · ( 去话题广场 )