在SQL Server中对大型数据集进行慢速不同查询

用户腾讯网友

我们正在使用SQL Server
2005跟踪相当数量的不断传入的数据（每秒5-15次更新）。我们注意到，在生产几个月之后，其中一个表开始花费大量的时间进行查询。
该表有3列：
id -自动编号（丛集）
typeUUID-在插入发生之前生成的GUID; 用于将类型分组在一起
typeName -类型名称（duh …）

我们运行的查询之一是该typeName字段上的一个查询：
SELECT DISTINCT [typeName] FROM [types] WITH (nolock);
该typeName字段上具有非聚集，非唯一的升序索引。该表目前包含大约2亿条记录。当我们运行此查询时，该查询花了5m
58s返回！也许我们不了解索引的工作原理……但是我认为我们并没有对索引有太多误解。
为了进一步测试，我们运行了以下查询：
SELECT DISTINCT [typeName] FROM (SELECT TOP 1000000 [typeName] FROM [types] WITH (nolock)) AS [subtbl]
如我所料，此查询将在大约10秒钟内返回，它正在扫描表。
这里有我们想念的东西吗？为什么第一个查询要花这么长时间？
编辑： 抱歉，我的第一个查询返回了76条记录，谢谢您的支持。
跟进：
谢谢大家的回答，现在对我来说更有意义（我不知道为什么以前没有……）。没有索引，它将对200M行进行表扫描，而对于索引，则将对200M行进行索引扫描…
SQL
Server确实更喜欢索引，并且确实提高了性能，但是没有什么令人兴奋的。重建索引确实使查询时间减少到刚刚超过3m，而不是6m，这是一个改进，但还不够。我只是向我的老板建议我们规范化表结构。
再次感谢大家的帮助！

解决方案:


            您确实误解了索引。即使它确实使用了索引，它仍将对200M个条目进行索引扫描。这将花费很长时间，加上执行DISTINCT所花费的时间（导致排序），而且运行起来很不好。在查询中看到DISTINCT总是会出现一个红色标记，并使我再次检查该查询。在这种情况下，也许您存在标准化问题？

在SQL Server中对大型数据集进行慢速不同查询

用户腾讯网友 LV1