日语 urlencode 问题？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1360 天前的主题，其中的信息可能已经有所发展或是发生改变。

一组歌曲的路径，已经从文件系统导入到 mongodb 里。后端 python 从 mongodb 读出来供 web js 读取。发现有几首歌放不出，看后台 nginx 的日志是 404 ，找不到文件。 F12 把路径拷出来，肉眼看路径是对的，但是 urlencode 后和正确的确是有不同，不知道为啥？ urlencode ，第一行可以读取，第二行报 404. 解码结果是一样的！！！

猜测是 unicode 编码的问题，但是不确定怎么解决。

第 1 条附言 · 2022-02-08 08:42:33 +08:00

同一个日语的字符串，urlencode 以后有两个表示，其中一个作为请求地址返回 404 了。

180 天空の城ラピュタサウンドトラック飛行石の謎 - Joe Hisaishi 1993//11%20 月光の雲海.mp3

%E8%B1%86%E7%93%A3%E9%9F%B3%E4%B9%90top250/180%20%E5%A4%A9%E7%A9%BA%E3%81%AE%E5%9F%8E%E3%83%A9%E3%83%94%E3%83%A5%E3%82%BF%20%E3%82%B5%E3%82%A6%E3%83%B3%E3%83%89%E3%83%88%E3%83%A9%E3%83%83%E3%82%AF%20%E9%A3%9B%E8%A1%8C%E7%9F%B3%E3%81%AE%E8%AC%8E%20-%20Joe%20Hisaishi%201993/11%20%E6%9C%88%E5%85%89%E3%81%AE%E9%9B%B2%E6%B5%B7.mp3

%E8%B1%86%E7%93%A3%E9%9F%B3%E4%B9%90top250/180%20%E5%A4%A9%E7%A9%BA%E3%81%AE%E5%9F%8E%E3%83%A9%E3%83%92%E3%82%9A%E3%83%A5%E3%82%BF%20%E3%82%B5%E3%82%A6%E3%83%B3%E3%83%88%E3%82%99%E3%83%88%E3%83%A9%E3%83%83%E3%82%AF%20%E9%A3%9B%E8%A1%8C%E7%9F%B3%E3%81%AE%E8%AC%8E%20-%20Joe%20Hisaishi%201993/11%20%E6%9C%88%E5%85%89%E3%81%AE%E9%9B%B2%E6%B5%B7.mp3

urlencode

MongoDB

路径

读取

9 条回复 • 2022-02-08 15:38:51 +08:00

soudesuka

2022-02-07 20:09:54 +08:00

我猜测是文件路径中的ピ和ド被拆解成ヒ与゚和ト与゙了吧。
详见请搜索 Unicode equivalence

lidlesseye11

2022-02-07 22:06:20 +08:00

建议 lz 把文本贴上来。你这两张图片怎么搞。。

ClericPy

2022-02-07 22:35:40 +08:00

是 quote 和 quote_plus 的问题? 话说先搞明白是前端输入错误还是后端解码错误?

提问题直接给例子吧

输入: xxx, 期望: xxx, 错误: xxx

imn1

2022-02-07 22:55:04 +08:00

#1 +1
ピ(30d4) 分解成ヒ(30d2) 和 '゚' (309a)两个字符
处理日语字符，这事情很常见，做个预案吧

elboble

2022-02-08 08:44:30 +08:00

如果是这样，是不是汉字 unicode 也存在这个问题。日语一点不懂，是不是应该存在一个通用的做法？

sagaxu

2022-02-08 08:50:33 +08:00 via Android

文件名和请求路径就不该出现[a-z0-9_]以外的字符，其它信息可以作为元数据存储在 db 里

yogogo

2022-02-08 09:10:23 +08:00

用参数带文件名吧

soudesuka

2022-02-08 10:34:34 +08:00

Python 函数 unicodedata.normalize(form, unistr)
返回 Unicode 字符串 unistr 的正常形式 form 。form 的有效值为 'NFC' 、 'NFKC' 、 'NFD' 和 'NFKD' 。

NFC：Normalization Form Canonical Composition （以标准等价方式来分解，然后以标准等价重组之）
NFD：Normalization Form Canonical Decomposition （以标准等价方式来分解）

第一个路径 = unicodedata.normalize('NFC', 第二个路径)
第二个路径 = unicodedata.normalize('NFD', 第一个路径)

elboble

2022-02-08 15:38:51 +08:00

@soudesuka 谢谢，收到，我再琢磨下