lmingzhi08 最近的时间轴更新
lmingzhi08

lmingzhi08

V2EX 第 383690 号会员,加入于 2019-02-14 09:28:31 +08:00
今日活跃度排名 9125
根据 lmingzhi08 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
lmingzhi08 最近回复了
2023-10-26 14:25:05 +08:00
回复了 dreamn 创建的主题 Linux 求推荐自组装 Linux 主机
目前用的 xiaomi 迷你主机,不过可能不适合要求 8T 硬盘

- 主机 ¥ 2999 (小米官网 8GB * 2 + 512GB nvme)
- 内存 ¥ 689 (闲鱼 DDR4 32GB * 2 )
- WD SN770 1T ¥ 379 (京东 NVME 固态)
- 金士顿 m2 ngff 2242 512GB ¥ 223.9 (闲鱼,感觉是山寨的)

合计 ¥ 4290.9 ,目前主要安装了 PEV 虚拟机平台
2019-12-04 10:18:10 +08:00
回复了 ristory 创建的主题 macOS MacOS 上能支持 FTP 协议的播放器
@shadownet 目前 nplayer 已经出了 macOS 版本的了,可以在 mac 上实现远程播放 ftp 视频
redis cookies 池?
可以参考静觅的爬虫书《 Python3 网络爬虫开发实战》
2019-08-15 20:30:38 +08:00
回复了 Thymolblue 创建的主题 Python 不懂就问: Python 脚本 并行
最近在研究异步写文件,平常都是用 pandas 来处理数据,其实数据相关的处理推荐看看 python 的 pandas.

然后利用 pandas 的 map 或 apply 应用函数到数据集,比直接用 python 的 for 循环,速度有极大的提升(毕竟 pandas 的底层都是经过优化的)。

如果是计算,应该是 cpu 密集型,用多核 cpu(多进程)加速运算还是可以节约很多时间.

一般可以将独立的一个任务流程封装在一个函数里,然后再应用。这个专门讲 python 并行处理任务的,我觉得挺有参考价值的:
https://python-parallel-programmning-cookbook.readthedocs.io/zh_CN/latest/chapter4/02_Using_the_concurrent.futures_Python_modules.html
2019-08-15 20:09:23 +08:00
回复了 liwenbest 创建的主题 Python 求助 v 站大佬 如何利用 Python 迁移数据
1 远程服务器 A,B 是否为 linux 系统
2 A 服务器是否可以通过 ssh(bash 端)访问 B 服务器
3 如果满足前面 2 个,那么可以用 SSHTunnelForwarder 做端口映射,将在 A 服务器将远程的 B 服务器上面的数据库端口映射在本地
4 在 A 服务器用 python 访问本地数据库和远程数据库,完成数据迁移

其实感觉也可以直接用 bash 脚本,A 服务器定时将数据库的数据导出成本地文件,将本地文件 rsync 到远程服务器 B, 远程服务器 B 将文件导入到数据库
2019-08-15 17:24:43 +08:00
回复了 zky001 创建的主题 Python pandas 处理数据慢,求好方法
54 万行不算很多...
obj = df['target_col']
objn = obj.str.split(',')
for i in range(4):
df['col_%s' % i] = objn.str[i]

如果再觉得内存不够,分批次处理,每次处理个 1 万行,使用 chunksize
https://blog.csdn.net/zm714981790/article/details/51375475
df_list = pd.read_table('tmp.sv', sep='|', chunksize=4)
for df in df_list:
print(chunk)

如果想要再加速,那么试试多进程,每次后存成一个单独的文件,最后再合并,应该几分钟搞定
2019-08-15 17:12:04 +08:00
回复了 BryceBu 创建的主题 Python str 转 dict 的问题
# 或者使用正则
import re
astr = '''{a: {b: '值 1', c: 0, d: '值 2', e: '1', f:[1,2,3]}}'''
eval(re.sub(r'\s*(\w+)\s*:', r"'\1':", astr))
# {'a': {'b': '值 1', 'c': 0, 'd': '值 2', 'e': '1', 'f': [1, 2, 3]}}

import demjson
demjson.decode(astr)
2019-08-15 16:59:42 +08:00
回复了 admingyu 创建的主题 Flask excel 批量导入数据库并返回导入情况的问题
我一般先用 pandas 读取 excel 文件,然后再后续处理。
其实是否可以先将 excel 文件转为 csv,txt 之类的文本文件,后续处理会方便一下?
然后导入数据库之前做数据校验,符合格式的导入数据库,不符合格式的导出到错误日志。
2019-08-15 16:47:25 +08:00
回复了 imherer 创建的主题 程序员 关于大量数据导出到 excel 或 csv 实现方案
感觉可以先将数据表 copy to 导出一个 csv 文件,csv 本身是一个文件文件,然后可以按行数切割文件了

http://burnignorance.com/linux-tips-and-tricks/splitting-a-large-csv-files-into-smaller-files-in-ubuntu/

To split large CSV (Comma-Separated Values) file into smaller files in Linux/Ubuntu use the split command and required arguments.

split -d -l 10000 source.csv tempfile.part.

Here “ 10000 ” indicates that each new file contains 10000 records,you change it to any number you want to, the smaller files would have that number of records. The new files are created with numbers suffixed. For example in this case the file names are tempfile.part.00.csv, tempfile.part.01.csv and so on.
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5727 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 03:13 · PVG 11:13 · LAX 19:13 · JFK 22:13
Developed with CodeLauncher
♥ Do have faith in what you're doing.