如题 假设有两台一模一样的服务器,但是不在一个省,采用同样的参数不同时间压缩一份一模一样的文件,出来的压缩文件校验值会一样吗
|      1oksbsb      2021-09-26 14:07:55 +08:00 不一定,即时是同一个机器也不一定。还要看是什么压缩算法 | 
|  |      2muzuiget      2021-09-26 14:08:35 +08:00  1 问题你是在于你如何保证和定义“参数一模一样”。 | 
|  |      3libook      2021-09-26 14:11:52 +08:00  2 如果真的是完全一致的文件元信息、完全一致的文件内容、完全一致的压缩算法和参数,压出来的文件的校验值理论上应该是一样的。 但实际有很多变数,比如你在把文件从一台服务器上复制到另一台服务器是否确保文件的修改时间一致,哪怕内容一样,修改时间不同也会导致校验值不同。 感觉像个 X-Y 问题,可以说一下这个需求的背景,看是不是需要调整探索的方向。 | 
|      4shoco      2021-09-26 14:17:27 +08:00 看用什么类型的压缩软件,一般压缩软件会把压缩时间作为参数放入到压缩文件里面, 那么一样的可能性为 0 | 
|  |      5C02TobNClov1Dz56      2021-09-26 14:53:59 +08:00 很多时候, 会, rar5 加恢复记录后, 不会. | 
|      6life4me      2021-09-26 15:25:59 +08:00 函数一样,参数一样,结果一样 | 
|  |      7momocraft      2021-09-26 15:27:27 +08:00 有 timestamp 的文件格式一定不一样  不要假定一样 | 
|      8WordTian      2021-09-26 16:16:22 +08:00 有 timestamp 的,大概率会不一样 | 
|  |      9LGA1150      2021-09-26 16:21:28 +08:00 参考一下 OpenWrt 的打包命令 https://github.com/openwrt/openwrt/blob/master/include/download.mk tar --numeric-owner --owner=0 --group=0 --mode=a-s --sort=name --mtime="$TAR_TIMESTAMP" ... | 
|      10HankLu      2021-09-26 16:26:11 +08:00 为什么会有这种问题? | 
|  |      12msg7086      2021-09-26 19:41:33 +08:00 via Android 可以一样,只要把其中的不确定因素排除就行。典型的因素包括时间。不含时间信息的压缩可以做到一致。(这算是 reproducible 可重复制作性。) | 
|  |      13ch2      2021-09-26 19:45:12 +08:00 压缩包里会额外加元数据的那种肯定不一样 | 
|  |      14sadfQED2      2021-09-26 20:16:38 +08:00 via Android  1 你先在同一台机器上压缩同一个文件两次,看看是不是一样的 | 
|      15TomChaai      2021-09-26 21:10:56 +08:00 你首先要定义什么叫“一模一样”的文件。时间是否包含在“一模一样”的范围内。 文件系统、数据结构的实现不同,可能会导致不一样的结果,比如文件元数据被当成文件的一部分这种事,是否包括在你的题设内。 | 
|      16liuidetmks      2021-09-26 21:16:44 +08:00 via iPhone  1 这是一个 xy 问题,请说出你当前真实需求 | 
|      17wangkun025      2021-09-26 21:24:53 +08:00 我试过。同一台机器上对同一个文件进行 gzip,md5 不一样。 | 
|      18smdbh      2021-09-26 22:03:42 +08:00 文件时间这些,是存在文件里的吗?? | 
|  |      19Trim21      2021-09-26 22:33:00 +08:00 以 zip 为例,zip 文件里有每个被压缩文件的修改时间。把这一项写 0 也不影响解压。 | 
|  |      20rrfeng      2021-09-26 22:36:41 +08:00 via Android 时间什么的都是参数,其实关键是压缩算法。 我可以写个随机压缩算法,只要能解压你管我每次压缩成什么样子呢。 | 
|  |      21jim9606      2021-09-27 00:52:33 +08:00 归档工具(tar,zip,7z)由于包含文件元数据,通常都不行。 gzip 要加 -n 才是 reproducible 。 ( https://unix.stackexchange.com/questions/531494/can-files-compressed-with-bzip2-be-relied-upon-to-be-deterministic-reproducible ) | 
|  |      22swulling      2021-09-27 08:37:21 +08:00 via iPhone 把 mtime 统一一下,那就是一样的。 | 
|      232i2Re2PLMaDnghL      2021-09-27 10:02:18 +08:00  1 首先你得保证压缩算法稳定。 压缩可以用一些随机化算法避免特定形态的数据构成最差复杂度,通过少量的抖动来进一步压缩。 @smdbh 是存在归档里的 归档文件内部有一个形似文件系统的结构,比如 tar zip 7z rar (除了 tar 不能压缩以外,其他均是可压缩可不压缩),它可能会同时保存文件的 mtime 非归档类压缩永远只能单文件,比如 gzip cab 归档非压缩和压缩非归档可以组合成压缩归档,比如 tar.gz ( tgz ) | 
|  |      24libook      2021-09-27 11:11:54 +08:00  1 @GrayXu #11 没错,但是你把文件压缩了之后,md5 校验的是压缩包的内容,而压缩包的内容是包括内部文件列表和元信息的。 | 
|      26dawangyezi      2021-09-28 10:16:05 +08:00 指定压缩算法,算法版本,时间戳,得到的就是一样的结果。 当然并不是所有的压缩格式都存储时间戳。 |