最近公司采集来的数据存在重复数据的问题,网上找了一些去重的方法,貌似挺精华的。

记录下以备以后再用。

不过对于数据量比较大的去重,本来想用sphinx,但是sphinx分组貌似只能用一个字段,十分头痛。。。

例如:
id     name      value
1       [......]

Read more