文/玄魂
.PDB文件,全称为“程序数据库”文件。我们使用它(更确切的说是看到它被应用)大多数场景是调试应用程序。目前我们对.PDB文件的普遍认知是它存储了被编译文件的调试信息,作为符号文件存在。那么,它具体包含哪些内容呢?在调试过程中是怎样发挥作用的呢?我们有没有办法去操作这个文件呢?
1. PDB文件内容
.PDB文件的内部格式,微软并没有公开,现在仍然是一个秘密,但是它提供了相关的API用于调试器来从中获取信息。
一个非托管C++程序的PDB文件包含如下信息:
- l Public, private,和static函数地址
- l 全局变量的名称和地址
- l 参数和局部变量的名称及它们在栈中的偏移量
- l 类型定义,包括class, structure,和 data definitions
- l FPO(Frame Pointer Omission,帧指针省略)数据
- l 源文件名称和行号
说明:
从XP SP2起就不再启用FPO。
对于.NET PDB文件,只包含上面说到的两种信息:
- l 源文件名称和行号
- l 局部变量名称
.NET PDB文件包含如此少的信息,原因在于其他信息我们可以从元数据中获取,所以也就没有必要重复存储了。
2. PDB文件匹配
当你讲一个模块加载到当前进程的地址空间中,调试器根据两个信息去寻找找匹配的PDB文件。第一个信息很明了,根据模块的名称。比如你加载的模块为“Test.DLL”,那么调试器将会寻找Test.PDB文件。但是但是通过名称,是无法判断模块和PDB文件是否是完整匹配的,调试器通过第二个信息来判断——一个GUID值。这个GUID值同时存在于模块文件和PDB文件中,如果GUID值不匹配,那么我们是无法在源代码级别来调试程序的。
这个GUID值是编译器和链接器放到文件中的。目前我们没有办法来改变这个值,但是我们查看在编译生成的文件中的GUID值。这里我们使用的工具是DUMPBIN,使用它我们可以列举所有PE文件的信息。如果您安装了VS2008或者VS2010的话,可以直接从VS命令行启动该工具,如图1所示。
图1 启动DUMPBIN
DUMPBIN工具的命令行选项,您可以参阅相关的文档,这里我们使用它的/headers选项,看看会输出什么样的结果。
在使用dumpbin之前,我们首先创建一个控制台程序,内容如代码清单1所示。
代码清单1 示例程序
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
namespace dumptest
{
class Program
{
static void Main(string[] args)
{
}
}
}
编译清单1的代码,obj目录中的文件如图2所示。
图2 obj目录中的文件
Bin目录下的文件内容如图3所示。
图3 Bin目录下的文件
准备工作做完之后,我们现在从命令行切换到bin目录下,执行“dumpbin /headers dumptest.exe”命令,结果如代码清单2所示。
代码清单2 dump查看headers结果
E:\test\c#\dumptest\dumptest\obj\x86\Debug>dumpbin /headers dumptest.exe
Microsoft (R) COFF/PE Dumper Version 10.00.30319.01
Copyright (C) Microsoft Corporation. All rights reserved.
Dump of file dumptest.exe
PE signature found
File Type: EXECUTABLE IMAGE
FILE HEADER VALUES
14C machine (x86)
3 number of sections
4E92A178 time date stamp Mon Oct 10 15:40:40 2011
0 file pointer to symbol table
0 number of symbols
E0 size of optional header
102 characteristics
Executable
32 bit word machine
OPTIONAL HEADER VALUES
10B magic # (PE32)
8.00 linker version
800 size of code
800 size of initialized data
0 size of uninitialized data
272E entry point (0040272E)
2000 base of code
4000 base of data
400000 image base (00400000 to 00407FFF)
2000 section alignment
200 file alignment
4.00 operating system version
0.00 image version
4.00 subsystem version
0 Win32 version
8000 size of image
200 size of headers
0 checksum
3 subsystem (Windows CUI)
8540 DLL characteristics
Dynamic base
NX compatible
No structured exception handler
Terminal Server Aware
100000 size of stack reserve
1000 size of stack commit
100000 size of heap reserve
1000 size of heap commit
0 loader flags
10 number of directories
0 [0] RVA [size] of Export Directory
26D4 [57] RVA [size] of Import Directory
4000 [588] RVA [size] of Resource Directory
0 [0] RVA [size] of Exception Directory
0 [0] RVA [size] of Certificates Directory
6000 [C] RVA [size] of Base Relocation Directory
2668 [1C] RVA [size] of Debug Directory
0 [0] RVA [size] of Architecture Directory
0 [0] RVA [size] of Global Pointer Directory
0 [0] RVA [size] of Thread Storage Directory
0 [0] RVA [size] of Load Configuration Directory
0 [0] RVA [size] of Bound Import Directory
2000 [8] RVA [size] of Import Address Table Directory
0 [0] RVA [size] of Delay Import Directory
2008 [48] RVA [size] of COM Descriptor Directory
0 [0] RVA [size] of Reserved Directory
SECTION HEADER #1
.text name
734 virtual size
2000 virtual address (00402000 to 00402733)
800 size of raw data
200 file pointer to raw data (00000200 to 000009FF)
0 file pointer to relocation table
0 file pointer to line numbers
0 number of relocations
0 number of line numbers
60000020 flags
Code
Execute Read
Debug Directories
Time Type Size RVA Pointer
-------- ------ -------- -------- --------
4E92A178 cv 50 00002684 884 Format: RSDS, {99F34C5E-5BC3-4043-AE11-D85F7990AF00}, 1, E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb
SECTION HEADER #2
.rsrc name
588 virtual size
4000 virtual address (00404000 to 00404587)
600 size of raw data
A00 file pointer to raw data (00000A00 to 00000FFF)
0 file pointer to relocation table
0 file pointer to line numbers
0 number of relocations
0 number of line numbers
40000040 flags
Initialized Data
Read Only
SECTION HEADER #3
.reloc name
C virtual size
6000 virtual address (00406000 to 0040600B)
200 size of raw data
1000 file pointer to raw data (00001000 to 000011FF)
0 file pointer to relocation table
0 file pointer to line numbers
0 number of relocations
0 number of line numbers
42000040 flags
Initialized Data
Discardable
Read Only
Summary
2000 .reloc
2000 .rsrc
2000 .text
现在我们将目光集中在代码清单2中斜体加粗的部分,这里我们可以找到调试路径的信息,一个GUID值(99F34C5E-5BC3-4043-AE11-D85F7990AF00)和一个路径(E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb)。现在我们已经清楚了调试器如何判断PDB文件是否匹配,下面我们再来看调试器是如何寻找PDB文件的。
3. PDB文件寻路
如果我们观察VS启动调试加载模块和符号文件的过程,会发现它通常会从可执行文件或者DLL文件的相同目录中加载符号文件。这正是调试器寻找PDB文件的第一选择。
如果在模块文件的相同目录下找不到匹配的PDB文件,会发生什么呢?我们在前文知道编译器在PE文件中硬编码了一个路径(比如:E:\test\c#\dumptest\dumptest\obj\x86\Debug\dumptest.pdb),这个路径就是调试器的第二个选择。对于对外发布的应用,很可能这两个路径下都找不到PDB文件。此时调试器会在本地的符号服务器缓存路径下寻找PDB文件。如果本地的符号服务器缓存路径下仍然找不到,它会调试器本身配置的符号服务器中寻找符号文件。图4是VS2010配置符号服务器和本地符号缓存路径的界面。
图4 VS2010配置符号存储
4. PDB与GAC
上面讲到的调试器寻找PDB文件的方式在大多数情况下都工作的很好,当我们遇到必须要讲编制之后的文件安装的GAC中的时候,情况开始变得有意思起来。当我们在本地编译并调试程序集的时候,即使程序集被安装到GAC中,调试器仍然能在编译目录下找到PDB文件,但是如果我们已经将Private Build的应用部署到其他机器上的时候,此时还想在被部署的机器上调试安装到GAC上的程序集,将会是一件很麻烦的事情。我们有两种方案来解决这个问题。
注:
Private Build与Public Build的区别
private build, 用来表示在开发人员自己机器上生成的build;public build,表示在公用的build机器上生成的build。对于public build,需要symbol server存储所有的PDB,然后当用户报告错误的时候,debugger才可以自动地找到binay相应的PDB文件, visual studio 和 windbg都知道如何访问symbol server。在将PDB和binay存储到symbol server前,还需要对PDB运行进行source indexing, source indexing的作用是将PDB和source关联起来。
第一种方案是我们在GAC的目录中找到被安装的程序集,然后将PDB文件拷贝到该目录下。通常我们安装到GAC中的程序集会存在于类似这样的路径中:C:Windows\assembly\GAC_MSIL\Example\1.0.0.0__682bc775ff82796a,该示例目录中“Example”代表程序集的名称,“1.0.0.0”代表版本号,“682bc775ff82796a”代表程序集的Public Token。当你找到确切的目录,将PDB文件放到该目录下,调试器就可以加载符号文件了。
这里还有一种更好的方案,就是设置一个名为“DEVPATH”的系统环境变量。该环境变量设定一个磁盘目录作为其值,该目录将作为GAC的辅助目录存在,在GAC中查找程序集同样会搜索该目录。但是在这样的目录中程序集并不会执行版本检查,这是需要我们注意的地方。
使用DEVPATH,我们首先要选定一个目录,然后确保应用程序对它持有读、写权限。然后创建DEVPATH系统环境变量。当然这只是准备工作,我们还要告知.NET运行时,应用程序启用DEVPATH作为GAC的扩展目录。所以接下来我们在配置文件(APP.CONFIG,WEB.CONFIG,MACHINE.CONFIG)中添加如下配置:
<configuration> <runtime> <developmentMode developerInstallation="true"/> </runtime> </configuration>
在你打开了development模式后,如果DEVPATH没有定义或路径不存在的话会导致程序启动时异常"Invalid value for registry"。而且如果在machine.config中开启DEVPATH的使用会影响其他的所有的程序,所以要慎重使用machine.config。
5. PDB与源文件
现在我们再来讨论一个开发人员经常问到的问题:源文件的信息是如何在PDB文件中存储的?对于Public Build,PDB文件存储的是如何利用版本控制工具从代码缓存获取源码代码的命令。对于Private Build,很显然,符号文件存储的是源代码的完整路径。
理想状态下,对于Public Build而言源代码索引和符号被缓存到符号服务器的操作都会自动执行,我们无需考虑源代码和符号文件在哪存储的问题。事实上,很多开发团队并没有公用的符号服务器或者源代码索引服务。对于一个小型项目而言,每个开发人员都有足够的磁盘空间来存储源代码和符号文件,也许不会过多的考虑这个问题。但是也许会有这样的场景:将一个Private Build项目转移到另一台机器上有30M的源码需要放到C盘,但是此时C盘只有20M的剩余空间该怎么办?我们能修改PDB文件中源码的路径吗?
我们前面提到没有办法修改PDB文件,但是这里有一个取巧的方法可以尝试,所谓山不向我走来,我向山走去。这里有一个工具恰好可以派上用场,它就是subst.exe,它是Windows自带的命令行工具,可以从cmd窗口启动。
说明:
subst用于路径替换 ,将路径与驱动器号关联,就是把一个目录当作一个磁盘驱动器来看,不过不能格式化。运用一定技巧,subst命令还可以实现隐藏驱动器、特殊软件的安装、模拟光盘自动运行等功能。
用法格式
一、subst [盘符] [路径] 将指定的路径替代盘符,该路径将作为驱动器使用
二、subst /d 解除替代
三、不加任何参数键入 SUBST,可以显示当前虚拟驱动器的清单。
[例子]
C:\DOS>subst a: c:\temp 将c:\temp虚拟化成a盘
C:\>subst a: /d? 解除替代
想到解决上面问题的方法了吗?我们只需将本机源码的路径虚拟化成一个磁盘,例如M,之后无论你将代码部署到任何机器上,只需将被部署的路径虚拟成M就可以了,就不会出现符号文件和目标代码不匹配的情况了。
关于PDB文件的资料,目前在互联网上还是凤毛麟角,我这里只是抛砖引玉,欢迎大家共同交流。