搜狗问答采集百度知道内容
近日,搜狗搜索低调推出了问答服务“搜狗问答”,与G共舞从2月初开始跟踪搜狗问答的服务程序,看到了不少诡异的情况,由此怀疑,搜狗问答正在窃取搜狗拼音输入法或搜狗五笔输入法的用户词库,进行提问的导入工作。并且,几乎可以肯定的是,搜狗问答大量窃取了目前在中国最流行的问答服务——百度知道的提问和回答。
一、上线一周已解决问题数已达千万
根据公开的数据,从一月份上线公测到4月3日,搜狗问答的“已解决问题数”已达到17,626,950条(待解决问题数达到1918825条),而从2005年才上线的百度知道才51629183条已解决用户数,而且很多题目都是只有简单的一个问题,没有描述性语言。很明显,搜狗问答的条目是有问题的。
二、这么多提问都是从百度知道来的?!
从已知的项目可以看出,搜狗窃取了百度知道的内容。在搜狗问答中,有一个条目“百度你怎么不去死”的条目,回答却是:
“因为像你这样的人太多了.问个问题还要到百度来.就让百度赚到钱了 .所以就死不了了”
一个“来”字,已说明了一切。
在2007年8月,搜狗曾经推出过知识搜索,通过索引百度知道、雅虎知识堂等问答服务程序,提供集合搜索,这项静悄悄的服务搜狗知识搜索,在几个月后,又静悄悄地消失,几乎没有人知道他曾在危险的地球存在过。也许从那时候开始,搜狗已经开始做数据的收集工作。
三、搜狗盗窃了输入法用户词库了吗?
某日,我偶然间截图到了这样一个页面,所有的提问都是词语,其中包含了错别字。与G共舞怀疑,搜狗问答通过收集搜狗输入法的打字词库,转换到搜狗问答的服务中。
输入法的用户词库一直是隐私敏感话题,谷歌拼音输入法在推出“统计反馈”功能时,特别注明:
如果您选择了”我愿意发送统计信息帮助谷歌拼音输入法改进质量”,当您使用谷歌拼音输入法的时候,您每日平均打字次数,平均词组长度,首选字正确率等信息将被传回谷歌。但我们不会收集您录入的具体文字内容。而且,这些统计信息也不会和您的个人信息(如您的Google 帐户)相关联。
我们可能与我们的业务伙伴共享有关输入法使用情况的汇总统计数字。除了在Google隐私政策中述及的各种有限情况外,我们将不会与这些伙伴或任何第三方共享有关个人身份的信息。
但十分奇怪的是,我在国内占有十分大份额的搜狗输入法官方网站上,却很难找到关于用户隐私权的条款信息。我下载了搜狗拼音输入法,在安装时看到了以下条款:
为了给使用”搜狗拼音输入法”的用户提供更优化的网络服务(包括但不限于在线存储词库、配置等服务),在提示用户并获得用户明确许可的情况下,”搜狗拼音输入法”会向搜狐搜狗公司发送关于用户如何使用本软件的信息和用户使用”搜狗拼音输入法”的相关数据。
并没有提示安装是否就表示“同意”,也没有任何其他提示,搜狗的条款十分模糊。
分析海量词库并不是做不到的事情,谷歌通过分析词语中是否带有“为什么”、“怎么样”等特殊提问词,提示用户去合作网站天涯问答提问,即是一个现实的应用案例。
四、搜狗脸红吗?
搜狗问答窃取了百度知道的内容,并有窃取输入法词库的嫌疑,如果与G共舞的这个怀疑成立,对于靠揭发谷歌拼音输入法窃词库而名声大噪的搜狗来说,无疑是罪大恶极。搜狗怎能原谅自己犯了自个儿曾经谴责过的行为呢?
原文链接:http://www.dwgoogle.cn/articles/1197.html