问题复盘-分布式id生成器-雪花算法

type

status

date

slug

summary

雪花算法的 ID 结构如下：

使用雪花算法生成 ID 的步骤如下：

雪花算法具有以下优点：

需要注意的是，在使用雪花算法生成 ID 时，需要保证数据中心 ID 和机器 ID 的唯一性，并且每个数据中心的机器数量不能超过 32 台。另外，雪花算法对系统的时钟要求较高，需要保证系统的时钟回拨不会造成 ID 的重复。

依赖与系统时间的一致性，如果系统时间被回调，或者改变，可能会造成id冲突或者重复。

实际中我们的机房并没有那么多，我们可以改进改算法，将10bit的机器id优化，成业务表或者和我们系统相关的业务。

经过上述分析得知，在同一台机器上并不可能出现这种情况，SPS在生产中出现的问题也是2号机器和4号机器出现id冲突情况。初步判断是datacenterId和 workeId重复导致的问题。接下来直接上代码模拟这种情况

因为线上部署是虚拟机部署，如果在同一个物理机中，DataCenterId必然会发生冲突，另一种DataCenterId的取值范围为32，如果超过32也会发生DataCenterId碰撞。

再考虑WorkerId，由于前者DataCenterId相同，workerId采取低16微散列计算，这样重复概率也会大大增加。

在不指定DataCenterId和WorkerId的情况下，采取默认生成的策略重复id概率还是较高

同时行内也有很多类似的部署情况如果采取默认配置很肯能出现类似情况，另外考虑上云之后的行内应用，基于k8s部署的情况，很多应用打包系统进程号可能是默认的守护进程。workerId随机性也就失去了所以也应该避免采用默认配置。