网页功能: 加入收藏 设为首页 网站搜索  
加速 Additive 操作
发表日期:2006-08-28作者:[转贴] 出处:  

如果你觉得你的代码已经很快了,或者已经先于我实现这个做法还是有更好的算法,请花时间看更重要的文章。

这是云风的 w++ 中 16位 Additive 操作主要代码:

movq mm0,[esi]
movq mm3,[edi]
movq mm1,mm0
movq mm2,mm0
movq mm4,mm3
movq mm5,mm3
psllw mm1,5
psllw mm4,5
psllw mm2,11
psllw mm5,11
paddusw mm0,mm3 ; 红色加
paddusw mm1,mm4 ; 绿色加
paddusw mm2,mm5 ; 蓝色加
psrlw mm1,5
psrlw mm2,11
pand mm0,[mask_r]
pand mm1,[mask_g]
por mm0,mm2
por mm0,mm1
movq [edi],mm0

 

代码整洁易懂,但是没有交错排放指令,如果对指令排放做进一步优化可以有些提高,不过不会超过5%的提高。我一直喜欢拿自己的代码与云风的做比较,一是他的代码是公开,二是唯一公开中够做参考的。这是几年前的代码,我一直没有在自己的图形库中编写该操作,最近重新整理代码,想起加入这个操作。

在动态执行的cpu,指令优化不是特别重要了,减少指令才是优化的关键。废话少说,先看代码:

movq mm0,[esi]
movq mm3,[edi]
movq mm1,mm0
movq mm2,mm3
pand mm0, maskRB
pand mm3, maskRB
pand mm1, maskG
pand mm2, maskG
paddusb mm0, mm3
paddusw mm1, mm2
paddusb mm0, addRB
paddusw mm1, addG
pand mm0, maskRB
pand mm1, maskG
por mm0, mm1
movq [edi],mm0

maskRB = 0xF81F * 4
maskG = 0x07E0 * 4
addRB = 0x00E0 * 4
addG = 0xF800 * 4

 

数数有几条代码,少了很多是吗。不是很好理解,关键在于R B 两色利用 paddusb 同时处理了,也是代码变少的原因。请先明白上面的代码在做什么,再考虑看下面的代码。我将进一步提高效率,代码如下:

movq mm0,[esi]
movq mm3,[edi]
movq mm1,mm0
movq mm2,mm3
pand mm0, maskRB
por mm3, maskG
pand mm1, maskG
por mm2, maskRB
paddusb mm0, mm3
paddusw mm1, mm2
pand mm0, mm1
movq [edi],mm0

maskRB = 0xF81F * 4
maskG = 0x07E0 * 4

 

比刚才的还要少4条代码,只有最初的1/2多些。代码将 src and maskG 取出 G,
pand mm1, maskG
por mm2, maskRB

将 dest or maskRB 将非 G 的位全置 1,那么paddusw mm1, mm2 可以看出,无论如何非 G 的位都是 1,同样R B的处理也是如此,最后使用 pand 来使两个结果合并,至于为什么你已经知道了吧:D。就算这样也不要希望有最初的50%以上的提高,我没测试过,估计能有个30%已经很不错了。

代码使用的常量请存在reg中。

我来说两句】 【加入收藏】 【返加顶部】 【打印本页】 【关闭窗口
中搜索 加速 Additive 操作
本类热点文章
  SSE 介紹
  浮点数到整数的快速转换
  基于SSE指令集的程序设计简介
  CPU 的 cache 和 latency
  关键字 对齐 内存对齐
  INTEL 体系结构 MMX™ 技术开发者..
  在非MFC程序中使用调试宏 ASSERT(),VER..
  Microsoft Visual C++ 浮点优化
  INTEL X86 体系 32 位汇编语言速成
  加速&优化技术
  加快程序运行速度的技巧
  VC代码的编写和调试
最新分类信息我要发布 
最新招聘信息

关于我们 / 合作推广 / 给我留言 / 版权举报 / 意见建议 / 广告投放  
Copyright ©2003-2024 Lihuasoft.net webmaster(at)lihuasoft.net
网站编程QQ群   京ICP备05001064号 页面生成时间:0.00388