浮点由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学记数法。浮点数a由两个数m和e来表示:a = m × b^e(b的e次方)。
特别数值
此外,浮点数表示法通常还包括一些特别的数值:+∞和−∞(正负无穷大)以及NaN('Not a Number')。无穷大用于数太大而无法表示的时候,NaN则指示非法操作或者无法定义的结果。
二进制表示
众所周知,计算机中的所有数据都是以二进制表示的,浮点数也不例外。然而浮点数的二进制表示法却不像定点数那么简单了。
浮点数概念
先澄清一个概念,浮点数并不一定等于小数,定点数也并不一定就是整数。
分类: 电脑/网络
问题描述:
什么是浮点数?他的表示由哪两部分构成,各由什么作用?
解析:
浮点数是表示小数的一种方法。所谓浮点就是小数点的位置不固定,与此相反有定点数,即小数点的位置固定。整数可以看做是一种特殊的定点数,即小数点在末尾。8086/8088中没有浮点数处理指令,不过从486起,CPU内置了浮点数处理器,可以执行浮点运算。一般的浮点数有点象科学计数法,包括符号位、指数部分和尾数部分。
浮点数是指小数点位置可以浮动的数据,通常以下式表示:
E次方
N = M·R
其中N为浮点数,M为尾数,E(为阶码也就是多少次方的意思),R为阶的基数, R一般为2进制(01),8(),16(abcdef)
简单说浮点数是指能够精确到小数点以后的数值类型
浮点数是指浮点数参与的运算,这种运算通常伴随着因为无法精确表示而进行的近似或舍入。
一个浮点数a由两个数m和e来表示:a = m × b^e。在任意一个这样的系统中,我们选择一个基数b(记数系统的基)和精度p(即使用多少位来存储)。m(即尾数)是形如±ddddddd的p位数(每一位是一个介于0到b-1之间的整数,包括0和b-1)。如果m的第一位是非0整数,m称作规格化的。有一些描述使用一个单独的符号位(s 代表+或者-)来表示正负,这样m必须是正的。e是指数。
在计算机中表示一个浮点数,其结构如下:
尾数部分(定点小数) 阶码部分(定点整数): 阶符±, 阶码e,数符±,尾数m。这种设计可以在某个固定长度的存储空间内表示定点数无法表示的更大范围的数。
浮点加法减法运算
设有两个浮点数x和y,它们分别为
x = Mx2^Ex
y = My2^Ey
其中Ex和Ey分别为数x和y的阶码,Mx和My为数x和y的尾数。
两浮点数进行加法和减法的运算规则是
设 Ex小于等于Ey,则 x±y = (Mx2^(Ex-Ey)±My)2^Ey,
完成浮点加减运算的操作过程大体分为四步:
1 0 操作数的检查;
2 比较阶码大小并完成对阶;
3 尾数进行加或减运算;
4 结果规格化并进行舍入处理。
⑴ 0 操作数检查
浮点加减运算过程比定点运算过程复杂。如果判知两个操作数x或y中有一个数为0,即可得知运算结果而没有必要再进行后续的一系列操作以节省运算时间。0操作数检查步骤则用来完成这一功能。
⑵ 比较阶码大小并完成对阶
两浮点数进行加减,首先要看两数的阶码是否相同,即小数点位置是否对齐。若二数阶码相同,表示小数点是对齐的,就可以进行尾数的加减运算。反之,若二数阶码不同,表示小数点位置没有对齐,此时必须使二数阶码相同,这个过程叫作对阶。要对阶,首先应求出两数阶码Ex和Ey之差,即△E = Ex-Ey。
若△E=0,表示两数阶码相等,即Ex=Ey;若△E>0,表示Ex>Ey;若△E<0,表示Ex<Ey。
当Ex≠Ey 时,要通过尾数的移动以改变Ex或Ey,使之相等。原则上,既可以通过Mx移位以改变Ex来达到Ex=Ey,也可以通过My移位以改变Ey来实现Ex=Ey。但是,由于浮点表示的数多是规格化的,尾数左移会引起最高有效位的丢失,造成很大误差。尾数右移虽引起最低有效位的丢失,但造成误差较小。因此,对阶操作规定使尾数右移,尾数右移后阶码作相应增加,其数值保持不变。显然,一个增加后的阶码与另一个阶码相等,增加的阶码的一定是小阶。因此在对阶时,总是使小阶向大阶看齐,即小阶的尾数向右移位(相当于小数点左移)每右移一位,其阶码加1,直到两数的阶码相等为止,右移的位数等于阶差△E。
⑶ 尾数求和运算
对阶结束后,即可进行尾数的求和运算。不论加法运算还是减法运算,都按加法进行操作,其方法与定点加减法运算完全一样。
⑷ 结果规格化
在浮点加减运算时,尾数求和的结果也可以得到01ф…ф或10ф…ф,即两符号位不等,这在定点加减法运算中称为溢出,是不允许的。但在浮点运算中,它表明尾数求和结果的绝对值大于1,向左破坏了规格化。此时将运算结果右移以实现规格化表示,称为向右规格化。规则是:尾数右移1位,阶码加1。当尾数不是1M时需向左规格化。
⑸ 舍入处理
在对阶或向右规格化时,尾数要向右移位,这样,被右移的尾数的低位部分会被丢掉,从而造成一定误差,因此要进行舍入处理。
简单的舍入方法有两种:一种是"0舍1入"法,即如果右移时被丢掉数位的最高位为0则舍去,为1则将尾数的末位加"1"。另一种是"恒置一"法,即只要数位被移掉,就在尾数的末尾恒置"1"。
在IEEE754标准中,舍入处理提供了四种可选方法:
就近舍入其实质就是通常所说的"四舍五入"。例如,尾数超出规定的23位的多余位数字是10010,多余位的值超过规定的最低有效位值的一半,故最低有效位应增1。若多余的5位 是01111,则简单的截尾即可。对多余的5位10000这种特殊情况:若最低有效位现为0,则截 尾;若最低有效位现为1,则向上进一位使其变为 0。
朝0舍入 即朝数轴原点方向舍入,就是简单的截尾。无论尾数是正数还是负数,截尾都使取值的绝对值比原值的绝对值小。这种方法容易导致误差积累。
朝+∞舍入 对正数来说,只要多余位不全为0则向最低有效位进1;对负数来说则是简单的截尾。
朝-∞舍入 处理方法正好与 朝+∞舍入情况相反。对正数来说,只要多余位不全为0则简单截尾;对负数来说,向最低有效位进1。
⑹ 溢出处理
浮点数的溢出是以其阶码溢出表现出来的。在加\减运算过程中要检查是否产生了溢出:若阶码正常,加(减)运算正常结束;若阶码溢出,则要进行相应处理。另外对尾数的溢出也需要处理。
阶码上溢 超过了阶码可能表示的最大值的正指数值,一般将其认为是+∞和-∞。
阶码下溢 超过了阶码可能表示的最小值的负指数值,一般将其认为是0。
尾数上溢 两个同符号尾数相加产生了最高位向上的进位,将尾数右移,阶码增1来重新对齐。
尾数下溢 在将尾数右移时,尾数的最低有效位从尾数域右端流出,要进行舍入处理。
整数部分:
小数部分:
例如:浮点数 48125
整数部分:
小数部分:
将整数与小数部分连接起来就是 1001101 ,即 =
再如:浮点数 005
因为只有小数所以只处理小数部分:
可以看到二进制小数是无法准确表示浮点数的,所以就有了精度一说
单精度浮点数用32位二进制表示如下:
双精度浮点数用64位二进制表示如下:
由上可知,
单精度浮点数精度为 pow(2,23) = 8388608 = 08388608 x pow(10,7)
所以单精度浮点数对应的10进制精度为 7 位多
双精度浮点数精度为 pow(2,52)-1 = 4503599627370496 = 04503599627370496 x pow(10,16)
所以双精度浮点数对应的10进制精度为 16 位多
移码(又叫增码)是由补码的符号位取反得到,一般用指数的移码减去1来做浮点数的阶码,
引入的目的是便于浮点数运算时的对阶操作。为了保证浮点数的机器零为全0。
对于定点整数,计算机一般采用补码的来存储。
正整数的符号位为 0,反码、补码、原码都一样。
负整数的符号位为 1,原码、反码和补码的表示各不相同,
由原码变成反码和补码有如下规则:
浮点数二进制表示:
比如十进制45的单精度浮点数的二进制 = 表示为上述公式则为
看到这里的 E 为 2 ,那么它在计算机实际存储为 2 + 127 = 129 =
根据上面的公式各部分表示的规则得到一个32位浮点数表示如下表:
符号位为 0 表示是正数,所以 45 的二进制存储为 0 10000001 00100000000000000000000 ,即 = 0x40900000
以下 toolc 是一个测试工具:
下面是我们把上述二进制转为二进制浮点数
如果得到阶码是负数比如下面的 05 和 005 ,规则是先在首位补 1 ,然后向左移动小数点,不够补 0
综上我们知道
阶码为正小数点 右移 ,先移动小数点再补 1 。
阶码为负小数点 左移 ,先补 1 再移动小数点,不足补 0
二进制浮点数转10进制浮点数,这里是单精度,双精度同理
根据公式定义:
015625 二进制表示如下:
转换如下:
IEEE754 Wiki
单精度浮点数
双精度浮点数
浮点数表示
二进制浮点数在线转换
浮点数保存的字节格式如下:
地址 +0 +1 +2 +3
内容 SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM
这里
S 代表符号位,1是负,0是正
E 偏移127的幂,二进制阶码=(EEEEEEEE)-127。
M 24位的尾数保存在23位中,只存储23位,最高位固定为1。此方法用最较少的位数实现了
较高的有效位数,提高了精度。
零是一个特定值,幂是0 尾数也是0。
浮点数-125作为一个十六进制数0xC1480000保存在存储区中,这个值如下:
地址 +0 +1 +2 +3
内容0xC1 0x48 0x00 0x00
浮点数和十六进制等效保存值之间的转换相当简单。下面的例子说明上面的值-125如何转
换。
浮点保存值不是一个直接的格式,要转换为一个浮点数,位必须按上面的浮点数保存格式表
所列的那样分开,例如:
地址 +0 +1 +2 +3
格式 SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM
二进制 11000001 01001000 00000000 00000000
十六进制 C1 48 00 00
从这个例子可以得到下面的信息:
符号位是1 表示一个负数
幂是二进制10000010或十进制130,130减去127是3,就是实际的幂。
尾数是后面的二进制数10010000000000000000000
在尾数的左边有一个省略的小数点和1,这个1在浮点数的保存中经常省略,加上一个1和小数
点到尾数的开头,得到尾数值如下:
110010000000000000000000
接着,根据指数调整尾数一个负的指数向左移动小数点一个正的指数向右移动小数点因为
指数是3,尾数调整如下:
110010000000000000000000
结果是一个二进制浮点数,小数点左边的二进制数代表所处位置的2的幂,例如:1100表示
(12^3)+(12^2)+(02^1)+(02^0)=12。
小数点的右边也代表所处位置的2的幂,只是幂是负的。例如:100表示(12^(-1))+
(02^(-2))+(02^(-2))=05。
这些值的和是125。因为设置的符号位表示这数是负的,因此十六进制值0xC1480000表示-
125。
目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格:
符号位 阶码 尾数 长度
float 1 8 23 32
double 1 11 52 64 以下通过几个例子讲解浮点数如何转换为二进制数例一:已知:double类型384144。求:其对应的二进制表示。分析:double类型共计64位,折合8字节。由最高到最低位分别是第63、62、61、……、0位:
最高位63位是符号位,1表示该数为负,0表示该数为正;
62-52位,一共11位是指数位;
51-0位,一共52位是尾数位。
步骤:按照IEEE浮点数表示法,下面先把384144转换为十六进制数。
把整数部和小数部分开处理:整数部直接化十六进制:960E。小数的处理:
04=050+0251+01251+006250+……
实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。隐藏位技术:最高位的1不写入内存(最终保留下来的还是52位)。
如果你够耐心,手工算到53位那么因该是:384144(10)=10010110000011100110011001100110011001100110011001100(2)科学记数法为:1001011000001110 0110011001100110011001100110011001100,右移了15位,所以指数为15。或者可以如下理解:1001011000001110 0110011001100110011001100110011001100×2^15
于是来看阶码,按IEEE标准一共11位,可以表示范围是-1024 ~ 1023。因为指数可以为负,为了便于计算,规定都先加上1023(2^10-1),在这里,阶码:15+1023=1038。二进制表示为:100 00001110;
符号位:因为384144为正对应 为0;
合在一起(注:尾数二进制最高位的1不要):
01000000 11100010 11000001 110 01100 11001100 11001100 11001100 11001100 例二:已知:整数3490593(16进制表示为0x354321)。求:其对应的浮点数34905930的二进制表示。 解法如下:先求出整数3490593的二进制表示: H: 3 5 4 3 2 1 (十六进制表示) B: 0011 0101 0100 0011 0010 0001 (二进制表示) │←──────21─────→│ 即: 11010101000011001000012×221可见,从左算起第一个1后有21位,我们将这21为作为浮点数的小数表示,单精度浮点数float由符号位1位,指数域位k=8位,小数域位(尾数)n=23位构成,因此对上面得到的21位小数位我们还需要补上2个0,得到浮点数的小数域表示为: 1 0101 0100 0011 0010 0001 00 float类型的偏置量Bias=2k-1-1=28-1-1=127,但还要补上刚才因为右移作为小数部分的21位,因此偏置量为127+21=148,就是IEEE浮点数表示标准: V = (-1)s×M×2E E = e-Bias中的e,此前计算Bias=127,刚好验证了E=148-127=21。 将148转为二进制表示为10010100,加上符号位0,最后得到二进制浮点数表示1001010010101010000110010000100,其16进制表示为: H: 4 A 5 5 0 C 8 4 B: 0100 1010 0101 0101 0000 1100 1000 0100 |←──── 21 ─────→ | 1|←─8 ─→||←───── 23 ─────→ | 这就是浮点数34905930(0x4A550C84)的二进制表示。 例三:05的二进制形式是01它用浮点数的形式写出来是如下格式 0 01111110 00000000000000000000000
符号位 阶码 小数位正数符号位为0,负数符号位为1阶码是以2为底的指数小数位表示小数点后面的数字
下面我们来分析一下05是如何写成0 01111110 00000000000000000000000
首先05是正数所以符号位为0再来看阶码部分,05的二进制数是01,而01是102^(-1),所以我们总结出来:要把二进制数变成(1f)2^(exponent)的形式,其中exponent是指数而由于阶码有正负之分所以阶码=127+exponent;即阶码=127+(-1)=126 即 01111110余下的小数位为二进制小数点后面的数字,即00000000000000000000000
由以上分析得05的浮点数存储形式为0 01111110 00000000000000000000000 注:如果只有小数部分,那么需要右移小数点 比如右移3位才能放到第一个1的后面, 阶码就是127-3=124例四 (2059375)10 =(1010010011 )2
首先分别将整数和分数部分转换成二进制数:
2059375=1010010011
然后移动小数点,使其在第1,2位之间
1010010011=1010010011×2^4 即e=4
于是得到:
S=0, E=4+127=131, M=010010011
最后得到32位浮点数的二进制存储格式为:
0100 1001 1010 0100 1100 0000 0000 0000=(41A4C000)16 例五:
-125转为单精度二进制表示
125:
1 整数部分12,二进制为1100; 小数部分05, 二进制是1,先把他们连起来,从第一个1数起取24位(后面补0):
110010000000000000000000
这部分是有效数字。(把小数点前后两部分连起来再取掉头前的1,就是尾数)
2 把小数点移到第一个1的后面,需要左移3位(1100100000000000000000002^3), 加上偏移量127:127+3=130,二进制是10000010,这是阶码。
3 -125是负数,所以符号位是1。把符号位,阶码和尾数连起来。注意,尾数的第一位总是1,所以规定不存这一位的1,只取后23位:
1 10000010 10010000000000000000000
把这32位按8位一节整理一下,得:
11000001 01001000 00000000 00000000
就是十六进制的 C1480000
例六:2025675
1 整数部分2,二进制为10; 小数部分0025675, 二进制是0000011010010010101001,先把他们连起来,从第一个1数起取24位(后面补0):
100000011010010010101001
这部分是有效数字。把小数点前后两部分连起来再取掉头前的1,就是尾数: 00000011010010010101001
2 把小数点移到第一个1的后面,左移了1位, 加上偏移量127:127+1=128,二进制是10000000,这是阶码。
3 2025675是正数,所以符号位是0。把符号位,阶码和尾数连起来:
0 10000000 00000011010010010101001
把这32位按8位一节整理一下,得:
01000000 00000001 10100100 10101001
就是十六进制的 4001A4A9
例七:
(逆向求十进制整数)一个浮点二进制数手工转换成十进制数的例子:
假设浮点二进制数是 1011 1101 0100 0000 0000 0000 0000 0000
按1,8,23位分成三段:
1 01111010 10000000000000000000000
最后一段是尾数。前面加上"1", 就是 110000000000000000000000
下面确定小数点位置。由E = e-Bias,阶码E是01111010,加上00000101才是01111111(127),
所以他减去127的偏移量得e=-5。(或者化成十进制得122,122-127=-5)。
因此尾数110(后面的0不写了)是小数点右移5位的结果。要复原它就要左移5位小数点,得00000110, 即十进制的0046875 。
最后是符号:1代表负数,所以最后的结果是 -0046875 。
注意:其他机器的浮点数表示方法可能与此不同 不能任意移植。 再看一例(类似例七):比如:53004d3e二进制表示为:01010011000000000100110100111110按照1个符号 8个指数 23个小数位划分0 10100110 00000000100110100111110正确的结果转出来应该是5510517227520该怎么算?好,我们根据IEEE的浮点数表示规则划分,得到这个浮点数的小数位是:
00000000100110100111110
那么它的二进制表示就应该是:
1000000001001101001111102 × 239
这是怎么来的呢? 别急,听我慢慢道来。
标准化公式中的M要求在规格化的情况下,取值范围1<M<(2-ε)正因为如此,我们才需要对原始的整数二进制表示做偏移,偏移多少呢?偏移2E。
这个“E”怎么算?上面的239怎么得来的呢?浮点数表示中的8位指数为就是告诉这个的。我们知道:
E = e-Bias
那么根据指数位:101001102=>16610
即e=166,由此算出E=e-Bias=166-127=39,就是说将整数二进制表示转为标准的浮点数二进制表示的时候需要将小数点左移39位,好,我们现在把它还原得到整数的二进制表示:1 00000000100110100111110 00000000000000001│←───── 23─────→│←─── 16───→│
23+16=39,后面接着就是小数点了。
拿出计算器,输入二进制数1000000001001101001111100000000000000000
转为十进制数,不正是:551051722752么!
通过这例六例七,介绍了将整数二进制表示转浮点数二进制表示的逆过程,还是希望大家不但能掌握转化的方法,更要理解转化的基本原理。
1、浮点数在C/C++中对应float和double类型,有必要知道浮点数在计算机中实际存储的内容。
2、IEEE754标准中规定float单精度浮点数在机器中表示用1位表示数字的符号,用8位来表示指数,用23位来表示尾数,即小数部分。对于double双精度浮点数,用1位表示符号,用11位表示指数,52位表示尾数,其中指数域称为阶码。
3、注意,IEE754规定浮点数阶码E采用”指数e的移码-1”来表示,请记住这一点。为什么指数移码要减去1,这是IEEE754对阶码的特殊要求,以满足特殊情况,比如对正无穷的表示。
以上就是关于浮点数在计算机中是如何表示的全部的内容,包括:浮点数在计算机中是如何表示的、什么是浮点数、计算机组成原理——浮点数表示方法是什么等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!