网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月04日
漏签
0
天
linux中国吧
关注:
50
贴子:
738
看贴
图片
吧主推荐
游戏
4
回复贴,共
1
页
<返回linux中国吧
>0< 加载中...
如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep,
只看楼主
收藏
回复
白项首
江湖少侠
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或在里面搜索,或其它操作——一些无法并行的操作。数据专家们,我是在对你们说。你可能有一个4核或更多核的CPU,但我们合适的工具,例如 grep, bzip2, wc, awk, sed等等,都是单线程的,只能使用一个CPU内核。
送TA礼物
1楼
2015-12-08 18:50
回复
白项首
江湖少侠
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
借用卡通人物Cartman的话,“如何我能使用这些内核”?
2楼
2015-12-08 18:51
回复
收起回复
白项首
江湖少侠
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
要想让Linux命令使用所有的CPU内核,我们需要用到GNU Parallel命令,它让我们所有的CPU内核在单机内做神奇的map-reduce操作,当然,这还要借助很少用到的–pipes 参数(也叫做–spreadstdin)。这样,你的负载就会平均分配到各CPU上,真的。
3楼
2015-12-08 18:51
回复
收起回复
白项首
江湖少侠
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
BZIP2
bzip2是比gzip更好的压缩工具,但它很慢!别折腾了,我们有办法解决这问题。
以前的做法:
cat bigfile.bin | bzip2 --best > compressedfile.bz2
现在这样:
cat bigfile.bin | parallel --pipe --recend '' -k bzip2 --best > compressedfile.bz2
尤其是针对bzip2,GNU parallel在多核CPU上是超级的快。你一不留神,它就执行完成了。
4楼
2015-12-08 18:52
回复
收起回复
白项首
江湖少侠
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
GREP
如果你有一个非常大的文本文件,以前你可能会这样:
grep pattern bigfile.txt
现在你可以这样:
cat bigfile.txt | parallel --pipe grep 'pattern'
或者这样:
cat bigfile.txt | parallel --block 10M --pipe grep 'pattern'
这第二种用法使用了 –block 10M参数,这是说每个内核处理1千万行——你可以用这个参数来调整每个CUP内核处理多少行数据。
5楼
2015-12-08 18:52
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
肖战版射雕开分5.5合理吗
2399850
2
孩子该判给汪小菲还是具俊晔
1825684
3
韩国棋院变更争议规则
1689255
4
姬发:孩子们这才是真正的我!
1337986
5
勇士有意集齐詹杜库
1059725
6
具俊晔深吻告别大S
794376
7
小米集团市值突破万亿港元
693197
8
日本医疗的滤镜就这么碎了
687126
9
利马十字韧带撕裂赛季报销
674625
10
我发崩铁角色脸模大伙打分
421857
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示