一文详解ARM7、ARM9和ARM11的区别

黎峰吖 · 发表于 2021-6-1 11:32:06

1
ARM处理器解析
ARM9、ARM11是哈佛结构，5级流水线结构，所以性能要高一点。ARM9和ARM11大多带内存管理器，跑操作系统好一点，ARM7适合裸奔。我们惯称的 ARM9系列中又存在ARM9与ARM9E两个系列，其中ARM9 属于ARM v4T架构，典型处理器如ARM9TDMI和ARM922T;而ARM9E属于ARM v5TE架构，典型处理器如ARM926EJ和ARM946E。因为后者的芯片数量和应用更为广泛，所以我们提到ARM9的时候更多地是特指ARM9E系列处理器(主要就是ARM926EJ和ARM946E这两款处理器)。下面关于ARM9的介绍也是更多地集中于ARM9E。
2
ARM7处理器和ARM9E处理器
的流水线差别
对嵌入式系统设计者来说，硬件通常是第一考虑的因素。针对处理器来说，流水线则是硬件差别的最明显标志，不同的流水线设计会产生一系列硬件差异。
让我们来比较一下ARM7和ARM9E的流水线，ARM9E从ARM7的3级流水线增加到了5级，ARM9E的流水线中容纳了更多的逻辑操作，但是每一级的逻辑操作却变得更为简单。比如原来 ARM7的第三级流水，需要先内部读取寄存器、然后进行相关的逻辑和算术运算，接着处理结果回写，完成的动作非常复杂;而在ARM9E的5级流水中，寄存器读取、逻辑运算、结果回写分散在不同的流水当中，使得每一级流水处理的动作非常简洁。这就使得处理器的主频可以大幅度地提高。因为每一级流水都对应 CPU的一个时钟周期，如果一级流水中的逻辑过于复杂，使得执行时间居高不下，必然导致所需的时钟周期变长，造成CPU的主频不能提升。所以流水线的拉长，有利于CPU主频的提高。在常用的芯片生产工艺下，ARM7一般运行在100MHz左右，而ARM9E则至少在200MHz以上。
3
ARM9E处理器的存储器子系统
像ARM926EJ 和ARM946E这两个最常见的ARM9E处理器中，都带有一套存储器子系统，以提高系统性能和支持大型操作系统。如图2所示，一个存储器子系统包含一个 MMU(存储器管理单元)或MPU(存储器保护单元)、高速缓存(Cache)和写缓冲(Write Buffer);CPU通过该子系统与系统存储器系统相连。
高速缓存和写缓存的引入是基于如下事实，即处理器速度远远高于存储器访问速度;如果存储器访问成为系统性能的瓶颈，则处理器再快也是浪费，因为处理器需要耗费大量的时间在等待存储器上面。高速缓存正是用来解决这个问题，它可以存储最近常用的代码和数据，以最快的速度提供给CPU处理(CPU访问Cache不需要等待)。
4
复杂处理器内部的存储器子系统
MMU则是用来支持存储器管理的硬件单元，满足现代平台操作系统内存管理的需要;它主要包括两个功能：一是支持虚拟/物理地址映射，二是提供不同存储器地址空间的保护机制。一个简单的例子可以帮助我们理解MMU的功能，在一个操作系统下，程序开发人员都是在操作系统给定的API和编程模型下开发程序;操作系统通常只开放一个确定的存储器地址空间给用户。这样就带来一个直接的问题，所有的应用程序都使用了相同的存储器地址空间，如果这些程序同时启动的话(在现在的多任务系统中这是非常常见的)，就会产生存储器访问冲突。那操作系统是如何来避免这个问题的呢?
操作系统会利用MMU硬件单元完成存储器访问虚拟地址到物理地址的转换。所谓虚拟地址就是程序员在程序中使用的逻辑地址，而物理地址则是真实存储器单元的空间地址。MMU通过一定的规则，可以把相同的虚拟地址映射到不同的物理地址上去。这样，即使有多个使用相同虚拟地址的程序进程启动，也可以通过MMU调度把它们映射到不同的物理地址上去，不会造成系统错误。
5
MMU的功能和作用
MMU 处理地址映射功能之外，还能给不同的地址空间设置不同的访问属性。比如操作系统把自己的内核程序地址空间设置为用户模式下不可访问，这样的话用户应用程序就无法访问到该空间，从而保证操作系统内核的安全性。MPU与MMU的区别在于它只有给地址空间设置访问属性的功能而没有地址映射功能。
Cache以及MMU等硬件单元的引入，给系统程序员的编程模型带来了许多全新的变化。除了需要掌握基本的概念和使用方法之外，下面几个针对系统优化的点既有趣又重要：
1.系统实时性考虑因素
为保存地址映射规则的页表(Page Table)非常庞大，通常MMU中只是存储器了常用的一小段页表内容，大部分页表内容都存储于主存储器里面;当调用新的地址映射规则时，MMU可能需要读取主存储器来更新页表。
这在某些情况下会造成系统实时性的丢失。比如当需要执行一段关键的程序代码时，如果不巧这段代码使用的地址空间不在当前MMU的页表处理范围里面，则MMU首先需要更新页表，然后完成地址映射，接着才能相应存储器访问;整个地址译码过程非常长，给实时性带来非常大的不利影响。所以一般来说带MMU和Cache的系统在实时性上不如一些简单的处理器;不过也有一些办法能够帮助提高这些系统的实时效率。
一个简单的办法是在需要的时候关闭MMU和Cache，这样就变成一个简单处理器了，可以马上提高系统实时性。当然很多情况下这不可行;在ARM的MMU和 Cache设计中，有一个锁定的功能，就是说你可以指定某一块页表在MMU中不会被更新掉，某一段代码或数据可以在Cache中锁定而不会被刷新掉;程序员可以利用这个功能来支持那些实时性要求最高的代码，保证这些代码始终能够得到最快的响应和支持。
2.系统软件优化
在嵌入式系统开发中，很多系统软件优化的方法都是相同和通用的，多数情况下这种规则也适用于ARM9E架构上。如果你已经是一个ARM7的编程高手，那么恭喜你，以前你掌握的优化方法完全可以用在新的ARM9E平台上，但是会有一些新的特性需要你加倍注意。最重要的便是Cache的作用，Cache本身并不带来编程模型和接口的变化，但是如果我们考察Cache的行为，就能够发现对于软件优化，Cache是有比较大的影响的。
Cache 在物理上就是一块高速SRAM，ARM9E的Cache组织宽度(cache line)都是4个word(也就是32个字节);Cache的行为受系统控制器控制而不是程序员，系统控制器会把最近访问存储器地址附近的内容复制到 Cache中去，这样，当CPU访问下一个存储器单元的时候(这个访问既可能是取指，也可能是数据)，可能这个存储器单元的内容已经在Cache里了，所以CPU不需要真的到主存储器上去读取内容，而直接读取Cache高速缓存上面的内容就可以了，从而加快了访问的速度。
从Cache的工作原理我们可以看到，其实Cache的调度是基于概率的，CPU要访问的数据既可能在Cache中已经存在(Cache hit)，也可能没有存在(Cache miss)。在Cache miss的情况下，CPU访问存储器的速度会比没有Cache的情况更坏，因为CPU除了要从存储器访问数据以外，还需要处理Cache hit或miss的判断，以及Cache内容的刷新等动作。只有当Cache hit带来的好处超过Cache miss带来的牺牲的时候，系统的整体性能才能得到提高，所以Cache的命中率成为一个非常重要的优化指标。
根据Cache行为的特点，我们可以直观地得到提高Cache命中率的一些方法，如尽可能把功能相关的代码和数据放置在一起，减少跳转次数;跳转经常会引起 Cache miss。保持合适的函数大小，不要书写太多过小的函数体，因为线性的程序执行流程是最为Cache友好的。循环体最好放置在4个word对齐的地址，这样就能保证循环体在Cache中是行对齐的，并且占用最少的Cache行数，使得被多次调用的循环体得到更好的执行效率。
原文链接：https://www.yunduoketang.com/article/zxjy22.html

帐号		自动登录	找回密码
密码			立即注册

一文详解ARM7、ARM9和ARM11的区别

浏览过的版块

原子哥极力推荐 /1