账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    PySpider如何去重?
    55
    0

    请问
    pyspider如何对某一个抓取值去重,不是url去重
    比如我抓了很多文章,同样文章标题的不去抓取,过滤掉
    请问怎么怎么设置,谢谢

    1
    打赏
    收藏
    点击回答
    您的回答被采纳后将获得:提问者悬赏的 11 元积分
        全部回答
    • 0
    • 我年轻我任性 普通会员 1楼

      在Python中,可以使用Pandas库的drop_duplicates()函数来去重。这是一个简单的例子:

      ```python import pandas as pd

      假设你有一个包含多个列的DataFrame

      df = pd.DataFrame({ 'A': ['one', 'one', 'two', 'two', 'three'], 'B': ['one', 'two', 'three', 'four', 'five'], 'C': ['one', 'two', 'three', 'four', 'five'], 'D': [1, 2, 3, 4, 5] })

      使用drop_duplicates()函数去重

      df = df.drop_duplicates()

      print(df) ```

      这将输出:

      A B C D 0 one one one 1 1 two two two 2 2 three three three 3 3 four four four 4 4 five five five 5

      注意:drop_duplicates()函数默认会去除重复的行,但如果你只想去除重复的列,可以传递参数keep='first'或keep='last'。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部