爬虫， mysql 唯一索引重复数据 ID 会自增。请问怎么解决？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

这是一个创建于 2677 天前的主题，其中的信息可能已经有所发展或是发生改变。

看了一下 scrapy 没这问题。

第 1 条附言 2018 年 12 月 26 日

mysql MD5 字段唯一索引，新增数据重复了，导致 ID 也自动增长了。

怎么解决新增数据重复 ID 不自增？》

Scrapy

MySQL

索引

请问

41 条回复 2019-01-14 13:06:24 +08:00

holajamc

2018 年 12 月 26 日

虽然我不懂你说了什么，但是 INSERT 数据难道 ID 不应该自增？

&nbp; 2

bestie

2018 年 12 月 26 日

不懂你说了什么，插了数据当然会自增，不知道你是怎么判断重复的，重复的跳过就是了

Vegetable

2018 年 12 月 26 日

我猜是说,判断重复的数据后并灭有插入,但是 ID 却消耗掉了.可能和 on duplicate key update 的问题类似吧.

xkeyideal

2018 年 12 月 26 日

难道爬虫都不过滤重复数据了么，布隆过滤器了解一下

mon3

2018 年 12 月 26 日

@xkeyideal 过滤不了，也没用。只能在数据库上设置唯一索引。

gouchaoer2

2018 年 12 月 26 日

用框架就意味着你失去灵活性，就这么简单的任务都无法搞定，所以少用框架

lihongjie0209

2018 年 12 月 26 日

@mon3 你数据能设置唯一索引, 你代码过滤不了? 数据库不是代码??

loveCoding

2018 年 12 月 26 日

这是业务问题,跟框架没什么关系

Mac

2018 年 12 月 26 日

你该去好好看看 INSERT 语句 ON DUPLICATE 时的用法了。

EvilCult

2018 年 12 月 26 日

同意 3 楼....
是不是写入的时候用的是“ replace into ”
而不是 “ on duplicate key update ”

xpresslink

2018 年 12 月 26 日

以前用过 scrapy+django+djangoitem 爬到内容直接用 django ORM 入库，每条信息都会有一个唯一索引用识别，
再爬的时候 Foo.objects.get_or_create(defaults__exact='bar', defaults={'defaults': 'baz'})

glacer

2018 年 12 月 26 日

@EvilCult on duplicate key update 也会导致原 id 变化的

aborigine

2018 年 12 月 26 日

@EvilCult #10 无论 replace into 还是 on duplicate key 都会导致 id+1

xpresslink

2018 年 12 月 26 日

@xpresslink #11，写错了应该是用 .objects.update_or_create，没有就新建，有就更新。

mon3

2018 年 12 月 26 日

@Mac ON DUPLICATE ID 一样会自增。

mon3

2018 年 12 月 26 日

@xpresslink 表的数据有的不能更新的，所以这个办法不太适合我。。

xpresslink

2018 年 12 月 26 日

@mon3
字段唯一索引，新增数据重复了，然后你的处理逻辑是什么？直接丢弃 /新建一个 /更新？
请说出你的故事。

mon3

2018 年 12 月 26 日

@xpresslink 有重复数据的话直接丢弃，这步 mysql 自动执行了，但是 ID 也会增长，我需要的是 ID 不增长，数据直接丢。

holajamc

2018 年 12 月 26 日

@mon3 既然这样的需求，为什么不考虑用布隆过滤器进行过滤呢…

mon3

2018 年 12 月 26 日

@holajamc 主要数据太多上亿，采集无法 24 小时开。

realpg

PRO

2018 年 12 月 26 日

innodb 不重复都会出现跳 ID 事务机制导致的

xpresslink

2018 年 12 月 26 日

@mon3

alter table tablename drop column id;
alter table tablename add id mediumint(8) not null primary key auto_increment first;

xpresslink

2018 年 12 月 26 日

我觉得没有必要执念于此。

holajamc

2018 年 12 月 26 日

@mon3 采集完全没有必要 24 小时工作呀，而且上亿的数据布隆过滤器足够应付…

gaius

2018 年 12 月 26 日

是自增主键跳了吗，正常，多线程插入就会跳。

hikarugo

2018 年 12 月 26 日

@gouchaoer2 ???

gouchaoer2

2018 年 12 月 26 日

@fyxtc ???!!!

tingfang

2018 年 12 月 26 日

on duplicate key update 重复是会跳号的。

EvilCult

2018 年 12 月 26 日

@glacer
@aborigine
我读书少你们两个不要骗我, 我要是没记错的话:
设置 UNIQUE 索引后(比如 A)
执行 INSERT INTO `TABLE` (A,B) VALUES (123,456) ON DUPLICATE KEY UPDATE B = 456;
这是更新旧有行的吧~~