V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
LxnChan
V2EX  ›  Linux

两份一模一样的文件,在两台一样的服务器上被压缩,压缩后的文件校验值会一样吗

  •  
  •   LxnChan ·
    lxnchan · 2021-09-26 14:00:57 +08:00 · 6720 次点击
    这是一个创建于 1187 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题 假设有两台一模一样的服务器,但是不在一个省,采用同样的参数不同时间压缩一份一模一样的文件,出来的压缩文件校验值会一样吗

    26 条回复    2021-09-28 10:16:05 +08:00
    oksbsb
        1
    oksbsb  
       2021-09-26 14:07:55 +08:00
    不一定,即时是同一个机器也不一定。还要看是什么压缩算法
    muzuiget
        2
    muzuiget  
       2021-09-26 14:08:35 +08:00   ❤️ 1
    问题你是在于你如何保证和定义“参数一模一样”。
    libook
        3
    libook  
       2021-09-26 14:11:52 +08:00   ❤️ 2
    如果真的是完全一致的文件元信息、完全一致的文件内容、完全一致的压缩算法和参数,压出来的文件的校验值理论上应该是一样的。
    但实际有很多变数,比如你在把文件从一台服务器上复制到另一台服务器是否确保文件的修改时间一致,哪怕内容一样,修改时间不同也会导致校验值不同。
    感觉像个 X-Y 问题,可以说一下这个需求的背景,看是不是需要调整探索的方向。
    shoco
        4
    shoco  
       2021-09-26 14:17:27 +08:00
    看用什么类型的压缩软件,一般压缩软件会把压缩时间作为参数放入到压缩文件里面, 那么一样的可能性为 0
    chengyiqun
        5
    chengyiqun  
       2021-09-26 14:53:59 +08:00
    很多时候, 会, rar5 加恢复记录后, 不会.
    life4me
        6
    life4me  
       2021-09-26 15:25:59 +08:00
    函数一样,参数一样,结果一样
    momocraft
        7
    momocraft  
       2021-09-26 15:27:27 +08:00
    有 timestamp 的文件格式一定不一样 不要假定一样
    WordTian
        8
    WordTian  
       2021-09-26 16:16:22 +08:00
    有 timestamp 的,大概率会不一样
    LGA1150
        9
    LGA1150  
       2021-09-26 16:21:28 +08:00
    参考一下 OpenWrt 的打包命令 https://github.com/openwrt/openwrt/blob/master/include/download.mk

    tar --numeric-owner --owner=0 --group=0 --mode=a-s --sort=name --mtime="$TAR_TIMESTAMP" ...
    HankLu
        10
    HankLu  
       2021-09-26 16:26:11 +08:00
    为什么会有这种问题?
    GrayXu
        11
    GrayXu  
       2021-09-26 19:17:33 +08:00
    @libook 话说 md5 之类的只是校验文件内容吧?
    msg7086
        12
    msg7086  
       2021-09-26 19:41:33 +08:00 via Android
    可以一样,只要把其中的不确定因素排除就行。典型的因素包括时间。不含时间信息的压缩可以做到一致。(这算是 reproducible 可重复制作性。)
    ch2
        13
    ch2  
       2021-09-26 19:45:12 +08:00
    压缩包里会额外加元数据的那种肯定不一样
    sadfQED2
        14
    sadfQED2  
       2021-09-26 20:16:38 +08:00 via Android   ❤️ 1
    你先在同一台机器上压缩同一个文件两次,看看是不是一样的
    TomChaai
        15
    TomChaai  
       2021-09-26 21:10:56 +08:00
    你首先要定义什么叫“一模一样”的文件。时间是否包含在“一模一样”的范围内。
    文件系统、数据结构的实现不同,可能会导致不一样的结果,比如文件元数据被当成文件的一部分这种事,是否包括在你的题设内。
    liuidetmks
        16
    liuidetmks  
       2021-09-26 21:16:44 +08:00 via iPhone   ❤️ 1
    这是一个 xy 问题,请说出你当前真实需求
    wangkun025
        17
    wangkun025  
       2021-09-26 21:24:53 +08:00
    我试过。同一台机器上对同一个文件进行 gzip,md5 不一样。
    smdbh
        18
    smdbh  
       2021-09-26 22:03:42 +08:00
    文件时间这些,是存在文件里的吗??
    Trim21
        19
    Trim21  
       2021-09-26 22:33:00 +08:00
    以 zip 为例,zip 文件里有每个被压缩文件的修改时间。把这一项写 0 也不影响解压。
    rrfeng
        20
    rrfeng  
       2021-09-26 22:36:41 +08:00 via Android
    时间什么的都是参数,其实关键是压缩算法。

    我可以写个随机压缩算法,只要能解压你管我每次压缩成什么样子呢。
    jim9606
        21
    jim9606  
       2021-09-27 00:52:33 +08:00
    归档工具(tar,zip,7z)由于包含文件元数据,通常都不行。
    gzip 要加 -n 才是 reproducible 。
    ( https://unix.stackexchange.com/questions/531494/can-files-compressed-with-bzip2-be-relied-upon-to-be-deterministic-reproducible )
    swulling
        22
    swulling  
       2021-09-27 08:37:21 +08:00 via iPhone
    把 mtime 统一一下,那就是一样的。
    2i2Re2PLMaDnghL
        23
    2i2Re2PLMaDnghL  
       2021-09-27 10:02:18 +08:00   ❤️ 1
    首先你得保证压缩算法稳定。
    压缩可以用一些随机化算法避免特定形态的数据构成最差复杂度,通过少量的抖动来进一步压缩。

    @smdbh 是存在归档里的
    归档文件内部有一个形似文件系统的结构,比如 tar zip 7z rar (除了 tar 不能压缩以外,其他均是可压缩可不压缩),它可能会同时保存文件的 mtime
    非归档类压缩永远只能单文件,比如 gzip cab
    归档非压缩和压缩非归档可以组合成压缩归档,比如 tar.gz ( tgz )
    libook
        24
    libook  
       2021-09-27 11:11:54 +08:00   ❤️ 1
    @GrayXu #11 没错,但是你把文件压缩了之后,md5 校验的是压缩包的内容,而压缩包的内容是包括内部文件列表和元信息的。
    GrayXu
        25
    GrayXu  
       2021-09-28 08:21:11 +08:00
    @libook 看了 23L,get 到了
    dawangyezi
        26
    dawangyezi  
       2021-09-28 10:16:05 +08:00
    指定压缩算法,算法版本,时间戳,得到的就是一样的结果。
    当然并不是所有的压缩格式都存储时间戳。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1146 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 18:33 · PVG 02:33 · LAX 10:33 · JFK 13:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.