^^ 笑眯眯的分词器
昨天在豆瓣读到这么同学的文章。注意到她,首先是因为她写的吃文,哇啦啦,口水直淌,又多是江南风味,令我这个自诩世界公民的流浪婆也顿生乡愁。这一篇《暮笳声起姐心愁》不是说吃的,是说色情文字的,其实是情色,很风雅的,读起来稚朴俏皮可爱,文字玲珑,大珠小珠落玉盘。只是读的时候发现很多小^^,虽然不大,文字本身也流畅,没有受到这些^^的影响,但密密麻麻遍布其中,毕竟令人心生纳罕。
这么同学自己坐了自己的沙发,说是"看来用方格儿作弊不行了"。这才明白,作者是花了很多时间加了这许多小眼睛,帖子才得以发出来的。哑然苦笑。再细看时,两个^^,竟有了些喜眉笑眼的味道。
http://www.douban.com/note/137816807/
于是就想起语音识别产品DragonNaturallySpeaking 里面的分词器(tokenizer)来。这个产品的主要价值,除了搜索引擎(Search Engine), 就是分词器了。搜集大量资料以后,用分词器来将它们处理分类,然后再按出现频率录入字典,录音时,由搜索引擎根据上下文“猜”出最有可能的选择。
我估计,此地的筛选器,也无非是将一些敏感词进行自动过滤,凡是有这些词出现的帖子一律扣住,缓发或禁发。而这么同学的^^,也无非是拆散了这个词,于是也就逃过了被筛选的命运。
珍贵的人类智商,一刻千金的泡网时间,就这样白白耗费,实在是暴殄天物。
想起来了,DragonNaturallySpeaking 其实也有过滤词单的,里面列的词以种族歧视、粗俗辱骂、极端淫秽的词汇为主。谁要是有门路,能够找到此地的过滤词单,然后自动给里面加一对笑眯眯的眼睛,也可以省下不少手工劳动,造福网虫,善莫大焉。
这么同学自己坐了自己的沙发,说是"看来用方格儿作弊不行了"。这才明白,作者是花了很多时间加了这许多小眼睛,帖子才得以发出来的。哑然苦笑。再细看时,两个^^,竟有了些喜眉笑眼的味道。
http://www.douban.com/note/137816807/
于是就想起语音识别产品DragonNaturallySpeaking 里面的分词器(tokenizer)来。这个产品的主要价值,除了搜索引擎(Search Engine), 就是分词器了。搜集大量资料以后,用分词器来将它们处理分类,然后再按出现频率录入字典,录音时,由搜索引擎根据上下文“猜”出最有可能的选择。
我估计,此地的筛选器,也无非是将一些敏感词进行自动过滤,凡是有这些词出现的帖子一律扣住,缓发或禁发。而这么同学的^^,也无非是拆散了这个词,于是也就逃过了被筛选的命运。
珍贵的人类智商,一刻千金的泡网时间,就这样白白耗费,实在是暴殄天物。
想起来了,DragonNaturallySpeaking 其实也有过滤词单的,里面列的词以种族歧视、粗俗辱骂、极端淫秽的词汇为主。谁要是有门路,能够找到此地的过滤词单,然后自动给里面加一对笑眯眯的眼睛,也可以省下不少手工劳动,造福网虫,善莫大焉。
还没人转发这篇日记