MySQL InnoDB Cluster vs. Group Replication 설정 비교

고가용성 MySQL 환경을 설계할 때 MySQL InnoDB Cluster와 네이티브 Group Replication은 언뜻 보면 거의 동일해 보일 수 있습니다. 하지만 그렇지 않습니다. InnoDB Cluster는 Group Replication, MySQL Shell AdminAPI 및 MySQL Router를 기반으로 구축된 독자적인 아키텍처입니다. 네이티브 Group Replication은 복제 기술 자체로, 보다 직접적으로 구성되고 운영됩니다.

이러한 차이는 설치 시뿐만 아니라 정상 운영 중에도 중요합니다. 선택은 장애 조치 처리, 라우팅, 업그레이드, 복구 및 당직 팀이 새벽 2시에 알아야 하는 MySQL 관련 지식의 양에 영향을 미칩니다.

기본 이해: MySQL Group Replication (MGR)

InnoDB Cluster와 그 구성 요소는 모두 **MySQL Group Replication (MGR)**에 의존합니다. MGR은 데이터베이스 서버 집합 간에 내결함성, 사실상 동기식 복제를 제공하는 기본 MySQL 기술입니다.

Group Replication의 주요 기능

멀티 프라이머리 모드: 둘 이상의 멤버에 쓰기를 허용하지만 충돌 위험을 제거하지는 않습니다. 애플리케이션은 여전히 충돌 쓰기를 피하고 인증 실패를 이해해야 합니다.
싱글 프라이머리 모드: 지정된 하나의 프라이머리 노드에서만 쓰기를 강제하여 충돌 해결을 단순화하지만 즉각적인 쓰기 확장성을 감소시킵니다.
일관성: 그룹 통신 및 트랜잭션 인증을 사용하여 커밋된 트랜잭션이 멤버 간에 일관되게 복제되도록 합니다. 종종 사실상 동기식으로 설명되지만 애플리케이션은 여전히 트랜잭션 충돌, 흐름 제어 및 오류 처리를 고려해야 합니다.
자동 장애 조치: 실패한 노드를 감지하고 그룹 구성을 자동으로 재구성합니다.

네이티브 Group Replication 배포에서는 관리자가 필요한 클러스터 시드, 네트워킹 및 멤버 인증 설정을 포함하여 이러한 MGR 설정을 수동으로 구성하고 관리해야 합니다.

MySQL InnoDB Cluster 소개

MySQL InnoDB Cluster는 MySQL Group Replication 위에 구축된 포괄적이고 공식적으로 번들로 제공되는 솔루션입니다. 이는 MGR을 대체하는 것이 아니라 설정, 구성 및 유지 관리를 단순화하는 독자적인 통합 관리 계층입니다.

InnoDB Cluster는 세 가지 필수 구성 요소를 통합합니다:

MySQL Group Replication (MGR): HA 데이터 복제를 제공합니다.
MySQL Router: 적절한 클러스터 멤버(예: 프라이머리로 쓰기 라우팅 또는 세컨더리 간 읽기 부하 분산)로 트래픽을 전달하는 스마트하고 가벼운 미들웨어 역할을 합니다.
MySQL Shell (AdminAPI): JavaScript, Python 또는 SQL을 사용하여 배포, 구성, 모니터링 및 토폴로지 관리를 위한 기본 관리 인터페이스를 제공합니다.

InnoDB Cluster의 장점

간소화된 배포: MySQL Shell에서 dba.createCluster() 명령을 통해 클러스터 생성이 추상화됩니다.
통합 라우팅: MySQL Router는 클러스터와 함께 작동하도록 자동으로 구성되어 자동 프라이머리 감지 및 장애 조치 리디렉션을 처리합니다.
내장 모니터링: MySQL Shell은 전체 토폴로지에 대한 통합 상태 확인 및 모니터링 도구를 제공합니다.

InnoDB Cluster vs. 네이티브 Group Replication: 비교 분석

궁극적으로 둘 다 MGR을 사용하지만 운영상의 차이는 관리 계층에 있습니다. 둘 중 하나를 선택하는 것은 팀의 전문성과 관리하려는 운영 복잡성에 크게 좌우됩니다.

기능	MySQL InnoDB Cluster	네이티브 Group Replication
관리 도구	MySQL Shell (AdminAPI)	표준 MySQL 클라이언트, 수동 구성 파일
미들웨어	통합 MySQL Router	별도로 배포 및 구성 필요
설정 복잡성	낮음 (AdminAPI를 통해 자동화)	높음 (모든 노드의 수동 구성 필요)
업그레이드/확장	AdminAPI 명령을 통해 간소화	노드별로 수동 관리 필요
필수 구성 요소	MGR, Router, Shell	MGR만
이상적인 사용 사례	신속한 배포, 표준화된 HA, 운영 단순성이 중요한 환경.	고도로 사용자 정의된 환경, 기존 인프라 통합, MGR에 대한 깊은 전문 지식을 가진 팀.

구성 예: 클러스터 초기화

1. InnoDB Cluster 초기화 (간소화)

MySQL Shell을 사용하면 모든 Group Replication 변수를 수동으로 편집하는 것보다 클러스터 설정이 훨씬 더 안내됩니다. 정확한 명령은 MySQL 버전과 인스턴스가 이미 구성되었는지 여부에 따라 다르지만 워크플로는 일반적으로 다음과 같습니다:

# MySQL Shell을 통해 연결
mysqlsh --uri root@localhost:3306

// AdminAPI 예제에는 JavaScript 모드 사용
mysqlsh> \js

// 연결된 인스턴스에서 클러스터 생성
mysqlsh> cluster = dba.createCluster('myCluster')

// 준비된 인스턴스 추가
mysqlsh> cluster.addInstance('admin@host2:3306')
mysqlsh> cluster.addInstance('admin@host3:3306')

// 상태 및 토폴로지 확인
mysqlsh> cluster.status()

2. 네이티브 Group Replication 초기화 (개괄적 단계)

네이티브 MGR은 노드가 그룹에 가입하기 전에 모든 노드에서 광범위한 수동 구성이 필요합니다:

my.cnf 구성: server_id, gtid_mode=ON, enforce_gtid_consistency=ON 및 MGR 관련 옵션(group_replication_group_name, group_replication_local_address 등)을 설정합니다.
첫 번째 노드 부트스트랩: 지정된 시드 노드에서 START GROUP_REPLICATION;을 실행합니다.
후속 노드 조인: 나머지 노드에서 시드 노드에 연결하도록 구성한 후 START GROUP_REPLICATION;을 실행합니다.
수동 라우팅: 클라이언트가 쓰기 가능한 멤버를 찾는 방법을 결정합니다. MySQL Router를 직접 배포하거나, 프록시 계층을 사용하거나, 애플리케이션에 프라이머리 감지 기능을 구축할 수 있습니다.

경고: 네이티브 Group Replication 설정에서는 MySQL Shell로 토폴로지를 의도적으로 관리하지 않는 한 cluster.removeInstance()와 같은 InnoDB Cluster AdminAPI 명령을 사용할 수 없다고 가정하지 마십시오. 그렇지 않으면 하위 수준의 Group Replication 구성 및 복구 단계를 직접 책임져야 합니다.

각 구성을 선택해야 하는 경우

MySQL InnoDB Cluster를 선택해야 하는 경우:

운영 단순성이 가장 중요한 경우: 관리 도구가 MGR 구성 및 장애 복구의 기본 복잡성을 처리하는 선언적 접근 방식을 원합니다.
신속한 배포가 필요한 경우: 프로덕션 준비가 된 HA 시스템을 빠르게 배포해야 합니다.
표준 토폴로지: 요구 사항이 Cluster 프레임워크에서 기본적으로 지원하는 표준 단일 프라이머리 또는 멀티 프라이머리 모델과 일치합니다.

네이티브 Group Replication을 선택해야 하는 경우:

최대 사용자 정의가 필요한 경우: Cluster AdminAPI의 추상화 계층에서 직접 노출되거나 지원되지 않는 비표준 MGR 구성, 고급 복구 절차 또는 특정 네트워크 설정을 사용해야 합니다.
레거시 통합: MySQL Shell AdminAPI를 기본 관리 도구로 사용하는 것이 바람직하지 않거나 사용할 수 없는 환경에 MGR을 통합하고 있습니다.
최소 설치 공간: 클라이언트 연결을 직접 관리할 수 있는 경우(예: DNS 또는 프라이머리 장애 조치 감지를 처리하는 애플리케이션 로직을 통해) MySQL Router 미들웨어에 대한 종속성을 특별히 피하려고 합니다.

HA 배포를 위한 모범 사례

전체 Cluster 또는 네이티브 MGR 중에서 선택했든 관계없이 안정성을 위해 다음 모범 사례를 준수하십시오:

홀수 개의 투표 멤버 사용: 3명의 멤버가 일반적인 시작점입니다. 더 큰 배포의 경우 5명 또는 7명이 적합할 수 있지만 멤버가 많을수록 복제 조정도 더 많이 필요합니다. 홀수 개가 모든 장애를 통해 쿼럼을 보장하는 것은 아닙니다. 일반적인 경우에 분할 투표를 방지할 뿐입니다.
전용 네트워크: Group Replication 트래픽은 민감합니다. 노드 간 통신에는 전용 저지연 네트워크 링크를 사용하십시오.
멤버 상태 모니터링: performance_schema.replication_group_members, performance_schema.replication_group_member_stats, 흐름 제어, 복제 오류 및 트랜잭션 인증 실패를 관찰하십시오. Cluster 컨텍스트에서는 cluster.status()를 상위 수준 확인으로 사용한 다음, 문제가 있을 때 기본 Performance Schema 테이블을 검사하십시오.
장애 조치 테스트: MySQL Router가 데이터 손실 없이 클라이언트 트래픽을 새 프라이머리 노드로 성공적으로 리디렉션하는지 확인하기 위해 정기적으로 프라이머리 장애를 시뮬레이션하십시오.

나중에 느끼는 운영상의 차이

선택하는 가장 쉬운 방법은 바쁜 릴리스 중에 프라이머리 장애를 상상하는 것입니다. InnoDB Cluster를 사용하면 예상 경로가 명확합니다. MySQL Shell은 클러스터 메타데이터를 이해하고, MySQL Router는 현재 프라이머리에 쓰기를 라우팅할 수 있으며, cluster.status()는 운영자에게 정상 또는 저하 상태에 대한 공유 어휘를 제공합니다.

네이티브 Group Replication을 사용하면 여전히 강력한 설정을 구축할 수 있지만 주변 시스템을 더 많이 소유하게 됩니다. 클라이언트가 프라이머리를 어떻게 발견합니까? 누가 라우팅을 업데이트합니까? 멤버가 추방되면 어떻게 됩니까? 수리된 노드를 어떻게 다시 조인합니까? 런북은 어디에 있습니까? 팀에 명확한 답변이 있다면 네이티브 Group Replication이 적합할 수 있습니다. 이러한 답변이 모호하다면 InnoDB Cluster가 일반적으로 더 안전한 운영 기본값입니다.

멀티 프라이머리 모드는 두 모델 모두에서 추가 주의가 필요합니다. 여러 노드에 쓸 수 있기 때문에 매력적으로 들리지만 애플리케이션에 복잡성을 부과합니다. 충돌하는 트랜잭션은 인증에 실패할 수 있습니다. 자동 증가 설정에 주의가 필요합니다. 핫 행은 조정 문제가 됩니다. 많은 프로덕션 시스템은 추론하기 쉽고 압박 속에서 복구하기 쉽기 때문에 단일 프라이머리 모드를 선택합니다.

실제 시나리오

하나의 기본 리전, 세 개의 데이터베이스 노드 및 교대로 당직을 서는 소수의 엔지니어가 있는 소규모 SaaS 팀을 고려하십시오. 그들은 주로 자동 프라이머리 장애 조치, 예측 가능한 클라이언트 라우팅 및 클러스터 상태를 확인하는 간단한 방법이 필요합니다. InnoDB Cluster는 그 형태에 잘 맞습니다. 팀은 MySQL Shell 작업을 표준화하고, 애플리케이션 계층 옆에 MySQL Router를 배포하고, cluster.status(), cluster.rejoinInstance() 및 통제된 장애 조치 테스트를 중심으로 짧은 복구 런북을 문서화할 수 있습니다.

이제 자체 프록시 계층, 서비스 검색, 사용자 정의 상태 확인 및 데이터 센터 간에 신중하게 제어된 네트워크 경로를 이미 실행하는 플랫폼 팀을 고려하십시오. 그들은 MySQL Router가 라우팅 솔루션이 되기를 원하지 않을 수 있습니다. 또한 모든 MySQL 변수를 템플릿화하고 자체 배포 파이프라인을 통해 구성을 검증하는 도구가 있을 수 있습니다. 네이티브 Group Replication은 해당 환경에 적합할 수 있습니다. 팀이 InnoDB Cluster가 일반적으로 함께 패키징하는 부분을 이미 소유할 준비가 되어 있기 때문입니다.

세 번째 경우는 "액티브-액티브 쓰기"가 더 많은 용량처럼 들리기 때문에 원하는 팀입니다. 그 팀은 속도를 늦춰야 합니다. 멀티 프라이머리 Group Replication은 무제한 쓰기 확장을 위한 일반적인 지름길이 아닙니다. 두 애플리케이션 노드가 동시에 동일한 계정 잔액, 인벤토리 행 또는 사용자 레코드를 업데이트하면 하나의 트랜잭션이 인증에 실패할 수 있습니다. 애플리케이션은 안전하게 재시도해야 합니다. 애플리케이션이 단일 작성자 가정으로 구축된 경우 단일 프라이머리 모드가 일반적으로 더 깔끔한 경로입니다.

선택하기 전에 물어봐야 할 질문

자동화가 예상대로 작동하지 않을 때 누가 장애 조치를 수행할 것인지 물어보십시오. 애플리케이션이 쓰기 가능한 엔드포인트를 어떻게 발견하는지 물어보십시오. 팀이 오래된 데이터를 그룹에 다시 복사하지 않고 추방된 멤버를 복구하는 방법을 알고 있는지 물어보십시오. 스키마 마이그레이션, 특히 대규모 DDL이 어떻게 실행될 것인지 물어보십시오. 백업이 추가 I/O를 견딜 수 있는 멤버에서 수행되는지 물어보십시오. 설치 시에만이 아니라 분기마다 설정을 테스트할 방법을 물어보십시오.

또한 애플리케이션에 "고가용성"이 무엇을 의미하는지 물어보십시오. 앱이 실패한 트랜잭션을 재시도할 수 없거나, 연결 풀이 죽은 엔드포인트를 너무 오래 캐시하거나, 배포 스크립트가 개별 호스트에 직접 쓰는 경우 데이터베이스 토폴로지만으로는 문제를 해결할 수 없습니다. InnoDB Cluster와 Group Replication은 데이터베이스 기반을 제공할 수 있지만 애플리케이션과 운영 프로세스도 협력해야 합니다.

마이그레이션 및 업그레이드 참고 사항

기존 단일 인스턴스 MySQL 시스템의 경우 어려운 부분은 종종 첫 번째 클러스터 명령이 아닙니다. 데이터 및 운영 모델을 준비하는 것입니다. GTID 일관성, 호환 가능한 서버 설정, 복제 및 관리를 위한 깔끔한 계정, 시간 동기화, 테스트된 백업 및 멤버 간의 충분한 네트워크 안정성이 필요합니다. 또한 클라이언트가 단일 호스트 이름에서 라우터 또는 프록시 엔드포인트로 이동하는 방법을 결정해야 합니다.

업그레이드의 경우 클러스터를 세 개의 관련 없는 MySQL 서버로 취급하지 마십시오. 버전 호환성이 중요하며, 롤링 업그레이드는 MySQL 릴리스에 대해 문서화된 경로를 따라야 합니다. 실제 트래픽으로 스테이징에서 시퀀스를 테스트하십시오. 복제 상태, 라우터 동작 및 애플리케이션 재시도를 관찰하십시오. 업그레이드 경로를 한 번도 연습하지 않은 고가용성 시스템은 부분적으로만 설계된 것입니다.

한 가지 작지만 유용한 습관은 지루한 경우도 연습하는 것입니다: 하나의 멤버 다시 시작, 하나의 라우터 손실, 자격 증명 순환, 복제본의 디스크 채우기, 새 멤버로 백업 복원. 이것들은 극적인 아키텍처 다이어그램이 아니지만 운영자가 실제로 만나는 이벤트입니다. 팀이 연습하고 설명할 수 있는 배포 모델이 일반적으로 종이에 더 인상적으로 보이는 모델보다 낫습니다.

표준 MySQL HA 환경을 구축하는 대부분의 팀에게 InnoDB Cluster는 더 나은 균형을 제공합니다: 수동 조립 감소, 더 명확한 도구 및 통합 라우팅. 네이티브 Group Replication은 사용자 정의 라우팅, 비정상적인 네트워크 제약 조건 또는 모든 Group Replication 설정에 대한 직접적인 제어가 필요할 때 여전히 유용합니다. 데이터베이스 기술은 유사합니다. 운영 계약이 다릅니다.