为什么在RedShift事务结束之前释放隐式表锁?
技术问答
488 人阅读
|
0 人回复
|
2023-09-13
|
我有一个ETL流程,该流程正在RedShift中逐步构建维度表。它按以下顺序执行操作:$ `6 O I8 d U, o8 q
[ol]开始交易
8 B. E2 g" y3 F$ K0 n% `2 \5 L创建一个像foo这样的表staging_foo' T) c( }, ]: f
将数据从外部源复制到staging_foo中" Y8 O9 U, k/ [, k% x8 w, [
对foo执行批量插入/更新/删除,使其与staging_foo匹配2 x& l; Q$ Q- p* _. X
删除staging_foo
( e8 V6 _4 J% D% _$ h3 z提交交易
, Y* h7 _( E3 j[/ol]) m# G( u' L7 F# K6 ]5 t: Q6 y
个别地,此过程有效,但是为了实现连续流刷新foo并在发生故障时实现冗余,我同时运行了该过程的多个实例。当发生这种情况时,我偶尔会遇到并发序列化错误。这是因为这两个过程都重播一些相同的变化foo来自foo_staging于重叠的交易。0 o9 p8 O* H" Q3 S( ^: P: ^+ @$ n
发生的是,第一个进程创建了staging_foo表,而第二个进程试图创建具有相同名称的表(这就是我想要的)时被阻止。当第一个进程提交其事务时(可能需要几秒钟),我发现第二个进程在提交完成之前就已解除阻塞。因此,foo在落实提交之前,它似乎正在获取表的快照,这将导致插入/更新/删除(其中一些可能是多余的)失败。, Q. t! _6 p6 x: \/ [: R
我根据文档http://docs.aws.amazon.com/redshift/latest/dg/c_serial_isolation.html进行理论化,其中说:
" R* f) m6 f, t% B6 o8 A$ ]/ p
, ?2 z1 H. o# {并发交易是彼此看不见的;他们无法检测到彼此的变化。每个并发事务将在事务开始时创建数据库的快照。在大多数SELECT语句,DML命令(例如COPY,DELETE,INSERT,UPDATE和TRUNCATE)以及以下DDL命令的第一次出现时,将在事务内创建数据库快照:
! |. S" A4 W7 ~/ X' eALTER TABLE(添加或删除列)
0 q& W _: E: h创建表
z! h5 j: b, X0 X/ [1 z2 i Y滴台2 {% O! Z4 j* T. a/ D
截断表
( [$ |: G! D. b6 i7 I R: |; v$ q; Y+ ^* @% h1 E
上面引用的文档使我有些困惑,因为它首先说将在事务开始时创建快照,但随后说仅在某些特定DML / DDL操作第一次出现时才创建快照。
( L6 `+ s9 |8 W& L, m8 N5 R我不想在我要替换的地方做一个深层副本,foo而不是逐步更新它。我还有其他进程会不断查询此表,因此永远不会有任何时间可以不间断地替换它。另一个问题针对深层复制提出了类似的问题,但它对我不起作用:如何确保对要替换的表进行同步DDL操作?0 p) X) s' \+ R
有没有一种方法可以避免并发序列化错误来执行我的操作?我需要确保可以进行读取访问,foo所以我不能使用LOCK该表。5 U( [0 a) T- m. |+ w i6 l& _
& e o8 x( @5 E* z0 P
解决方案:5 `9 b5 `) i3 N s$ ~+ V
" W1 r' `; a' a( r7 a6 l
$ v7 b Q+ g9 W- Q2 x% c% u8 l ?
+ h4 t# }2 [/ S8 i2 R5 b7 x 好的,Postgres(以及Redshift
# {+ P9 s# X2 @* K[或多或少])使用MVCC(多版本并发控制)来进行事务隔离,而不是使用db
& l7 n8 k' H* Y9 V- X* U/ table / row / page锁定模型(如SQL Server,MySQL等所示)。简单地说,每个事务都将根据 事务开始时存在
; [$ |$ s! F7 c( H8 t( Y4 Q" G的数据进行操作。$ r& b( a" R- k% n: |4 x
因此,您的注释“我同时有多个流程实例”说明了问题所在。如果在运行流程1的同时启动流程2,则流程2无法看到流程1的结果。 |
|
|
|
|
|