求以下程序运算速度最快的算法

simms01 · 发表于 2013-1-7 16:00:46

#define HEAD1_D3 PFout(6)

u8 x;
-----以上是声明--------

HEAD1_D3=x&0x01; HEAD1_DTSB_CLR;HEAD1_DTSB_SET; //先送最低位

HEAD1_D3=(x&0x02)>>1; HEAD1_DTSB_CLR;HEAD1_DTSB_SET;

HEAD1_D3=(x&0x04)>>2; HEAD1_DTSB_CLR;HEAD1_DTSB_SET;

HEAD1_D3=(x&0x08)>>3; HEAD1_DTSB_CLR;HEAD1_DTSB_SET;

HEAD1_D3=(x&0x10)>>4; HEAD1_DTSB_CLR;HEAD1_DTSB_SET;

HEAD1_D3=(x&0x20)>>5; HEAD1_DTSB_CLR;HEAD1_DTSB_SET;

HEAD1_D3=(x&0x40)>>6; HEAD1_DTSB_CLR;HEAD1_DTSB_SET;

HEAD1_D3=(x&0x80)>>7; HEAD1_DTSB_CLR;HEAD1_DTSB_SET;

simms01 · 发表于 2013-1-7 16:11:23

还有1个写法但是速度差不多

for (i=0;i<8;i++)
{
HEAD1_D3=x&0x01; HEAD1_DTSB_CLR;HEAD1_DTSB_SET;
x=x>>1;

}

Pony279 · 发表于 2013-1-7 16:52:26

写 256 个函数, 建立一个函数指针表, 用 x 作为索引查表试试

lxj19901115 · 发表于 2013-1-7 17:48:25

LS的说法是可以的，做个指针表，要么就用宏加快速度，不推荐使用循环，

Pony279 · 发表于 2013-1-7 18:00:34

用gcc在 Os 选项下编译了, 然后用 mdk 软件仿真简单测试了下, 用了个大循环, 总共用时从原来的 0.071s 降到了 0.066s, 不过代码从原来的不到 1k 变成了 18k,

如果速度真的那么重要的话 ... ...

以下是部分测试代码供楼主参考, 想自己测试的话需要自己修改部分内容.

extern void (* const fun[])();
void fun2(u8);

int main(){

int i = gpioa; // 禁止编译器优化

for(; i<0xffff; i++)
fun[i&0xff]();
//fun2(i);
while(1);
}

PinRename(pa1,HEAD1_D3);
PinRename(pa2,HEAD1_DTSB);

void fun2(u8 x){
HEAD1_D3=x&0x01; HEAD1_DTSB.Reset();HEAD1_DTSB.Set();
HEAD1_D3=(x&0x02)>>1; HEAD1_DTSB.Reset();HEAD1_DTSB.Set();
HEAD1_D3=(x&0x04)>>2; HEAD1_DTSB.Reset();HEAD1_DTSB.Set();
HEAD1_D3=(x&0x08)>>3; HEAD1_DTSB.Reset();HEAD1_DTSB.Set();
HEAD1_D3=(x&0x10)>>4; HEAD1_DTSB.Reset();HEAD1_DTSB.Set();
HEAD1_D3=(x&0x20)>>5; HEAD1_DTSB.Reset();HEAD1_DTSB.Set();
HEAD1_D3=(x&0x40)>>6; HEAD1_DTSB.Reset();HEAD1_DTSB.Set();
HEAD1_D3=(x&0x80)>>7; HEAD1_DTSB.Reset();HEAD1_DTSB.Set();
}

#define fun_impl(hex1,hex2) \
void fun_##hex1##hex2(){ \
constexpr int x = hex1<<8|hex2; \
HEAD1_D3=x&0x01; HEAD1_DTSB.Reset();HEAD1_DTSB.Set(); \
HEAD1_D3=(x&0x02)>>1; HEAD1_DTSB.Reset();HEAD1_DTSB.Set(); \
HEAD1_D3=(x&0x04)>>2; HEAD1_DTSB.Reset();HEAD1_DTSB.Set(); \
HEAD1_D3=(x&0x08)>>3; HEAD1_DTSB.Reset();HEAD1_DTSB.Set(); \
HEAD1_D3=(x&0x10)>>4; HEAD1_DTSB.Reset();HEAD1_DTSB.Set(); \
HEAD1_D3=(x&0x20)>>5; HEAD1_DTSB.Reset();HEAD1_DTSB.Set(); \
HEAD1_D3=(x&0x40)>>6; HEAD1_DTSB.Reset();HEAD1_DTSB.Set(); \
HEAD1_D3=(x&0x80)>>7; HEAD1_DTSB.Reset();HEAD1_DTSB.Set(); \
}

#define fun_impl_group(hex) \
fun_impl(hex, 0x0) \
fun_impl(hex, 0x1) \
fun_impl(hex, 0x2) \
fun_impl(hex, 0x3) \
fun_impl(hex, 0x4) \
fun_impl(hex, 0x5) \
fun_impl(hex, 0x6) \
fun_impl(hex, 0x7) \
fun_impl(hex, 0x8) \
fun_impl(hex, 0x9) \
fun_impl(hex, 0xa) \
fun_impl(hex, 0xb) \
fun_impl(hex, 0xc) \
fun_impl(hex, 0xd) \
fun_impl(hex, 0xe) \
fun_impl(hex, 0xf)

fun_impl_group(0x0)
fun_impl_group(0x1)
fun_impl_group(0x2)
fun_impl_group(0x3)
fun_impl_group(0x4)
fun_impl_group(0x5)
fun_impl_group(0x6)
fun_impl_group(0x7)
fun_impl_group(0x8)
fun_impl_group(0x9)
fun_impl_group(0xa)
fun_impl_group(0xb)
fun_impl_group(0xc)
fun_impl_group(0xd)
fun_impl_group(0xe)
fun_impl_group(0xf)

#define fun_addr(hex1,hex2) &fun_##hex1##hex2

#define fun_addr_group(hex) \
fun_addr(hex,0x0) , \
fun_addr(hex,0x1) , \
fun_addr(hex,0x2) , \
fun_addr(hex,0x3) , \
fun_addr(hex,0x4) , \
fun_addr(hex,0x5) , \
fun_addr(hex,0x6) , \
fun_addr(hex,0x7) , \
fun_addr(hex,0x8) , \
fun_addr(hex,0x9) , \
fun_addr(hex,0xa) , \
fun_addr(hex,0xb) , \
fun_addr(hex,0xc) , \
fun_addr(hex,0xd) , \
fun_addr(hex,0xe) , \
fun_addr(hex,0xf)

void (*const fun[])() =
{
fun_addr_group(0x0)
, fun_addr_group(0x1)
, fun_addr_group(0x2)
, fun_addr_group(0x3)
, fun_addr_group(0x4)
, fun_addr_group(0x5)
, fun_addr_group(0x6)
, fun_addr_group(0x7)
, fun_addr_group(0x8)
, fun_addr_group(0x9)
, fun_addr_group(0xa)
, fun_addr_group(0xb)
, fun_addr_group(0xc)
, fun_addr_group(0xd)
, fun_addr_group(0xe)
, fun_addr_group(0xf)
};

Pony279 · 发表于 2013-1-7 18:03:57

使用循环, 只要循环次数不大并且能在编译期确定, 在为速度优化的时候编译器也可能把循环体展开的,
所以楼主提供的两种代码在让编译器优化(不管是选择为速度还是为大小), 都有可能生成一模一样的汇编代码, 具体情况就要看编译器的能力了.

Pony279 · 发表于 2013-1-7 18:15:56

回复【5楼】Pony279:
---------------------------------

补充一下, 如果把查表法函数里面的HEAD1_D3操作都改成使用 BSR 和 BSRR 寄存器而不是位带操作, 大循环的时间可以缩小到 0.060 s

simms01 · 发表于 2013-1-8 10:59:32

额实在太给力了按照这个方法修改了下程序速度提高了 15%左右呵谢谢啊～～

Pony279 · 发表于 2013-1-8 14:03:31

回复【8楼】simms01:
---------------------------------

查表法还有优化空间的, 因为相邻两个位为同样的数字的时候不需要重复写数据口,

不过这种方式太占代码空间了, 没必要, 20 k 的 flash 的 $ 应该可以用来买好几个硬件实现的了...

Alexinx · 发表于 2013-1-8 22:36:06

回复【9楼】Pony279:
---------------------------------
好厉害~~学习了

帐号		自动登录	找回密码
密码			立即注册

求以下程序 运算速度最快的算法

原子哥极力推荐 /1

求以下程序运算速度最快的算法