首页 文章详情

Android neon 加速优化

字节流动 | 224 2022-07-16 15:04 0 0 0
UniSMS (合一短信)

neon 是一种SIMD(单指令多数据)指令集,其效率相当于汇编,用于arm cpu平台的优化,在音视频、图形图像处理领域性能提升较大


arm架构的CPU从armv7a开始已经支持neon(可选项),从而实现并行计算功能。


本文记录一下在android上使用neon加速的方法。


首先不用多说先创建支持native C++的android工程

然后在gradle中添加对neon的支持:


externalNativeBuild { 
cmake {
cppFlags "-std=c++14"
arguments "-DANDROID_ARM_NEON=TRUE"
}
}

还要在 cmake 中添加对 neon 的支持 "-mfpu=neon"

最后在cpp中 #include  <arm_neon.h>

这样,项目就可以支持neon加速了。


为了比较性能,现在用neon和纯C方法比较一下将彩色图片转成灰度的时间


//纯C函数
void method_argb2gray_c(AndroidBitmapInfo info, void *pixels) {
// rgb转灰度值公式
// Gray = (R*38 + G*75 + B*15) >> 7
cv::TickMeter tm1;
tm1.start();
uint32_t *pixel = NULL;
int a = 0, r = 0, g = 0, b = 0;
int rows=info.height;
int cols=info.width;

for (int y = 0; y < rows; ++y) {
for (int x = 0; x < cols; ++x) {
pixel = (uint32_t *) pixels + info.width * y + x;
a = (*pixel & 0xFF000000) >> 24;
r = (*pixel & 0x00FF0000) >> 16;
g = (*pixel & 0x0000FF00) >> 8;
b = (*pixel & 0x000000FF) >> 0;
int gray = (r * 38 + g * 75 + b * 15) >> 7;

*pixel = ((a << 24) | (gray << 16) | (gray << 8) | gray);
}
}
tm1.stop();
LOGI("method_argb2gray_c time: %lf", tm1.getTimeMilli());
}
//neon函数
void method_argb2gray_neon(AndroidBitmapInfo info, void *pixels) {
// Gray = (R*38 + G*75 + B*15) >> 7
TickMeter tm3;
tm3.start();
unsigned short *dst = (unsigned short *) pixels;
unsigned char *src = (unsigned char *) pixels;
uint8x8_t r = vdup_n_u8(38);
uint8x8_t g = vdup_n_u8(75);
uint8x8_t b = vdup_n_u8(15);
uint16x8_t alp = vdupq_n_u16(255 << 8);

uint16x8_t temp;
uint8x8_t gray;
uint8x8x4_t argb;
uint16x8_t hight;
uint16x8_t low;
uint16x8x2_t res;
int i, size = info.height * info.width / 8;

for (i = 0; i < size; ++i) {

//获取r、g、b值,计算灰度值
argb = vld4_u8(src);
temp = vmull_u8(argb.val[1], r);
temp = vmlal_u8(temp, argb.val[2], g);
temp = vmlal_u8(temp, argb.val[3], b);
gray = vshrn_n_u16 (temp, 7);
src += 8 * 4;

//赋值4通道argb
hight = vorrq_u16(alp, vmovl_u8(gray));
low = vorrq_u16(vshlq_n_u16(vmovl_u8(gray), 8), vmovl_u8(gray));
res = vzipq_u16(low, hight);
vst1q_u16(dst, res.val[0]);
dst += 8;
vst1q_u16(dst, res.val[1]);
dst += 8;

}
tm3.stop();
LOGI("method_argb2gray_neon time: %lf", tm3.getTimeMilli());
}

实测速度比较如下



作者:Android_YXTK
链接:
https://www.jianshu.com/p/4795af08544b

-- END --


进技术交流群,扫码添加我的微信:Byte-Flow



获取视频教程和源码



推荐:

Android FFmpeg 实现带滤镜的微信小视频录制功能

全网最全的 Android 音视频和 OpenGL ES 干货,都在这了

一文掌握 YUV 图像的基本处理

good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter