V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wmttom  ›  全部回复第 2 页 / 共 5 页
回复总数  95
1  2  3  4  5  
分享个实践中遇到的情况。实践中 MySQL online DDL innodb 很容易被 matedata lock 卡住,如果有长时间事务的话。
感觉一般 web 场景下原因都是代码写的不好,事务处理的不好,没有严格遵守 开启事务 -> 执行操作 -> 出错 rollback -> 完成 commit 的流程,可能造成长时间挂着没结束的事务。
2016-11-16 19:31:37 +08:00
回复了 tianzx 创建的主题 北京 想配副眼镜,大家有什么推荐啊?
上次有人发帖卖的 诗乐镜架 + 蔡司镜片 就挺好,性价比不错
2016-11-16 14:13:02 +08:00
回复了 f8281113 创建的主题 Python Python 该如何操作文本入库至 Hbase
pyquery 写 css 选择器比写 xpath 更简单点
既然是 hadoop 生态,我能想到的就是 kudu 了
2016-11-10 15:52:11 +08:00
回复了 inoris 创建的主题 问与答 有没有什么可乐的替代品?
看可乐对自己提神是靠咖啡因还是气泡水的刺激了,如果是咖啡因就换咖啡,气泡水就换苏打水。
感觉无糖碳酸饮料的主要问题是磷酸,喝了几年零度,不敢再喝了。
现在苏打水机 + illy 胶囊咖啡机,感觉良好。有款可以给各种无气液体打气的苏打水机很好使,搞点朗姆酒、薄荷糖浆、青柠汁,加点冰水往里打气,出来再加点冰块,喝着干活倍儿爽。
youtube-dl 单 ip 下了十万个视频还没被封,可能是运气好
2016-11-01 21:01:45 +08:00
回复了 enjoyhot 创建的主题 MySQL 请教关于大数据量(每天约 1000 万)的统计操作优化方法。
@enjoyhot 这里说的 Hive 意思主要是指用 Hive 作为 SQL on Hadoop 的 metadata ,本质上所有的 Hive 表都是 HDFS 上的文件, Impala 、 Spark df 可以共享 Hive 的 metadata 来把 HDFS 文件当做建好的表跑 SQL 。需求并不是非常复杂的话可以纯 SQL 搞定,比如每一个任务都是一个 Hive 的 SQL ,从一个 Hive 表生成另一个 Hive 表,然后用 sqoop 之类的工具把这张结果 Hive 表导入 MySQL 供数据后台查询。复杂的需求可以通过 Hive UDF 之类的搞定,也可以去写 spark 任务, mapreduce 写起来会比较繁琐, spark rdd 的接口相对简单些。
elasticsearch 自己给自己的定义除了搜索,还有数据分析引擎。很适合做数据量不是非常大情况下的实时全维度数据分析,说白了任意维度数据分析需要所有字段都带索引, es 又封装好了常用统计方法,用起来正合适。一个搞过的实践是当日数据使用 es 实时分析,之前数据离线处理,因为一般离线处理都在凌晨跑,看不到当日数据。
2016-10-31 16:06:19 +08:00
回复了 enjoyhot 创建的主题 MySQL 请教关于大数据量(每天约 1000 万)的统计操作优化方法。
一千万条用 elasticsearch 吧,能满足线上查询,就是查询的 DSL 得改下,不能用 SQL 。离线计算可以用 spark 直接读 es 当做 rdd 处理, es 官方有工具。
一般统计查询类的需求分两种,一种是可离线计算的,固定维度,固定时间范围的,或者可由这类线性叠加能得到的,都可以离线计算(比如一周 pv 就是每天 pv 之和),存 Hive 按照天的分区表, spark 跑数据存 MySQL 或者 HBASE ,用来直接显示;
另一种不固定维度,或者需要去重的。需求方如果可以接受固定时间范围,这样也可以离线算,比如月活没法用日活叠加,但是可以只提供自然月的月活,这类也可以离线跑。
最不好搞的就是任意维度任意范围,这种只能及时算,可以用 Impala 直接读 Hive 的分区表来实时查询结果,或者用 elasticsearch 当做实时分析引擎来出,可以根据数据集的大小和集群的资源限制这类查询的最大范围。
2016-08-31 17:21:45 +08:00
回复了 zpole 创建的主题 Hadoop hadoop 可以两个集群之间做到每个节点之间一一对应实时同步么?
合并成一个集群可破,存储层用一套,想要安全多开副本。感觉搞两个集群应该是为了计算资源隔离吧,但是搞一个集群也能想各种办法分配调度计算任务啊,没必要搞两个。
看一下是不是中间解析 url 走了不同的 urlencode 标准,空格可能会有 + 或者 %20 的形式,确定前后端和中间处理都走一套。 可以参考 rfc 3986
2016-08-30 20:37:34 +08:00
回复了 KagamineLenKai2 创建的主题 MySQL SQL 苦手求 dalao 指点……
需求表述的实在是太不清楚了,如果只是要把两种拼一起 union 下吧。但是看意思好像要根据条件把同一个 apply_id 下的数据分层多个 session 来处理,这样偏复杂的业务逻辑还是把数据都读内存直接代码处理吧,一共就几兆数据,硬是用 SQL 写出来也低效难改难维护。

话说直接把公司数据库扔网上随便让别人下真的没问题吗

``` sql
(SELECT apply_id,operation_time as 接单时间, null as 退回原因
FROM operation
WHERE before_status = 10005100 AND end_status = 10005200)
UNION
(SELECT apply_id,operation_time as 接单时间, operator_remark as 退回原因
FROM operation
WHERE before_status = 10005200 AND end_status = 10002300)
order by apply_id,接单时间
```
2016-08-30 19:40:45 +08:00
回复了 caoyujia2000 创建的主题 咖啡 求推荐靠谱提神咖啡,不考虑性价比!
illy 胶囊机,一次三个深度烘焙胶囊来一杯,啥都不加,精神到半夜。
2016-08-29 12:24:44 +08:00
回复了 xixi10111011 创建的主题 MacBook Pro macbook pro 外接显示器 u2414h u2417h u2515h 选哪一款比较合适
@frqk 如果没有用过 60Hz 的话, 30Hz 感觉还行,基本能用。但是一旦用过了就再也回不去了, 30Hz 鼠标移动快了有延迟感。
2016-08-29 12:12:58 +08:00
回复了 xixi10111011 创建的主题 MacBook Pro macbook pro 外接显示器 u2414h u2417h u2515h 选哪一款比较合适
P2415Q 淘宝都 2699 包顺风了,为啥还要入 2k
2016-08-29 12:10:23 +08:00
回复了 zeroten 创建的主题 问与答 年轻人的第 2 门语言选什么好?
为了提高自己学 Scala 发现更大的世界,为了搬砖工资高学 JAVA
2016-08-25 20:53:12 +08:00
回复了 saberpowermo 创建的主题 MacBook Pro rmbp 配 p2415Q 显示器相关
P2415Q 刚看了下淘宝中关村店已经 2699 顺风包邮了,几个月前 3100 买的,一切正常。平时各种电子产品基本都是淘宝没信誉,接近最低价的淘宝店买的,包括 rmbp ,看仔细问仔细了基本都没啥问题。
2016-08-23 12:04:07 +08:00
回复了 xiaoyu9527 创建的主题 云计算 阿里云青岛装 python 库里的东西慢的跟狗屎一样怎么办?
阿里云镜像全家桶 http://mirrors.aliyun.com
阿里云的机器可以改域名走内网,里面有说明
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1250 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 23:13 · PVG 07:13 · LAX 15:13 · JFK 18:13
Developed with CodeLauncher
♥ Do have faith in what you're doing.