V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
hhrmatata
V2EX  ›  程序员

关于中文、日文同形字的编码比较问题

  •  
  •   hhrmatata · 2014-01-09 19:24:54 +08:00 · 3994 次点击
    这是一个创建于 3997 天前的主题,其中的信息可能已经有所发展或是发生改变。
    中文和日文中有很多相同的文字,虽然读音不一样,但是书写是一样的。我很好奇在utf-8中的编码是否一样,于是写了几行Python代码验证了一下:

    --------------------------------------------------------------------------------------------
    #coding=utf-8

    j = u"最近の更新" #从维基百科日本站粘贴到编辑器
    c = u"最近的更新" #自己手动输入

    print repr(j.encode('utf-8'))
    print repr(c.encode('utf-8'))

    输出:
    '\xe6\x9c\x80\xe8\xbf\x91\xe3\x81\xae\xe6\x9b\xb4\xe6\x96\xb0'
    '\xe6\x9c\x80\xe8\xbf\x91\xe7\x9a\x84\xe6\x9b\xb4\xe6\x96\xb0'

    --------------------------------------------------------------------------------------------
    惊奇的发现同形字编码一样。
    想问下,是我实验有问题,还是结论就是这样?
    9 条回复    1970-01-01 08:00:00 +08:00
    vibbow
        1
    vibbow  
       2014-01-09 19:28:38 +08:00   ❤️ 1
    是的,有些日文和中文字看起来比较相似的,UTF-8编码也是一样的
    具体显示时是用日文字体还是中文字体,就根据你的系统语言首选项了
    (反正如果首选项是英文的话,用的是日文字体)
    ichigo
        2
    ichigo  
       2014-01-09 19:36:13 +08:00
    很多汉字写法还是有细微差别的,编码应该不同吧。
    Semidio
        3
    Semidio  
       2014-01-09 19:45:28 +08:00   ❤️ 1
    unicode是一套通用字符编码集,它不可能给同一个字符多个不同的编码,即使这个字符在多种语言中被使用。其实不只是unicode,绝大多数字符编码都只按字形,同形字全部同编码,只有极少数编码格式严格按照字音给同形字多个编码。
    Semidio
        4
    Semidio  
       2014-01-09 19:46:03 +08:00
    @ichigo 有的是异体字,有的则只是字体区别
    Semidio
        5
    Semidio  
       2014-01-09 19:49:05 +08:00
    @ichigo unicode关于同形字的处理,如果是在不同语言环境下,即使写法不同依然同编码,但是如果是同一语言环境,则视为异体字,给予不同编码。至于这些同编码的同形字在写法上的区别则只能靠字体来体现。
    hhrmatata
        6
    hhrmatata  
    OP
       2014-01-09 19:59:03 +08:00
    @vibbow
    @Semidio 谢了,应该就是你们说的这样吧。同行字共享一个编码。刚好实验也证明了。
    exoticknight
        7
    exoticknight  
       2014-01-09 20:06:10 +08:00
    感谢楼主,之前也是有这样的疑问
    VYSE
        8
    VYSE  
       2014-01-10 00:28:35 +08:00
    尼玛这才意识到UTF-8 ENCODE亚洲字符好长好低效啊!!
    看看人家j.encode('utf-16')
    hanliinter
        9
    hanliinter  
       2014-01-11 01:25:35 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1143 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:54 · PVG 02:54 · LAX 10:54 · JFK 13:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.