1. 서론
해양 생태계는 다양한 생물의 소리로 구성된 복합적 음향환경(soundscape)을 형성한다.
이러한 소리는 생물의 이동, 번식, 포식 등 생태활동의 핵심 단서이자,
생물다양성을 정량적으로 평가할 수 있는 중요한 지표다.
그러나 수중 음향 데이터는
- 노이즈가 많고,
- 종별 음향 신호가 복잡하며,
- 데이터 양이 방대하다는 특징을 가진다.
이 때문에 기존의 통계 기반 분류법으로는
정확한 생물음 분류가 어렵다.
이에 따라 최근 심층 신경망(Deep Neural Network, DNN) 을 이용한
해양 생물음 자동 분류 시스템(AI Bioacoustic Classifier) 이
해양 음향학 및 생태학 분야의 핵심 연구 주제로 부상하고 있다.
2. 기술적 배경
2.1 해양 생물음의 특성
- 저주파(10–1000 Hz): 고래류, 대형어류
- 중주파(1–10 kHz): 대부분의 어류, 갑각류
- 고주파(>10 kHz): 새우, 돌고래, 플랑크톤 군집
이러한 주파수 스펙트럼은 종별 고유한 패턴을 가지며,
이를 시각화한 스펙트로그램(spectrogram) 형태로 변환해 AI가 학습한다.
2.2 기존 한계
- 전통적 특징기반(Classical Feature-based) 방법은 MFCC(Mel-Frequency Cepstral Coefficient),
ZCR(Zero Crossing Rate) 등 수동 특징을 추출하지만,
복잡한 해양환경에서는 분류 정확도가 70% 수준에 머물렀다. - 반면, DNN 기반 접근은 특징을 자동 추출하여
종간 변동성과 환경 노이즈를 동시에 학습할 수 있다.
3. 심층 신경망 모델의 구조와 학습
3.1 주요 모델 구조
모델 특징 주요 활용
| CNN (Convolutional Neural Network) | 스펙트로그램의 공간 패턴 인식에 우수 | 생물음 이미지 분류 |
| RNN / LSTM (Long Short-Term Memory) | 시간적 연속성을 학습 | 음향 신호 시계열 분석 |
| CRNN (CNN + RNN Hybrid) | 주파수 + 시간 구조를 통합 분석 | 복잡한 생물음 분류 |
| Transformer / Attention 모델 | 장거리 의존 관계를 학습 | 대규모 음향 시퀀스 예측 및 분류 |
3.2 학습 방식
- 데이터 전처리 → 정규화 → 스펙트로그램 변환
- 라벨링(예: species_A, species_B, background_noise)
- Cross-Entropy Loss 기반 분류 학습
- AdamW 옵티마이저, learning rate decay 적용
- GPU 기반 병렬 학습으로 대용량 데이터 처리
3.3 학습 데이터셋
- NOAA, JAMSTEC, KIOST의 해양 음향 데이터
- 평균 44.1 kHz 샘플링, 10초 단위 슬라이스
- 총 데이터 규모: 약 15,000시간 (10TB 이상)
4. 정확도 향상을 위한 주요 전략
4.1 데이터 증강(Data Augmentation)
- Time Stretching, Pitch Shifting, Mixup 기법 적용
- 실제 환경의 소음 변동을 시뮬레이션해
일반화 성능(Generalization)을 향상시킴
4.2 노이즈 제거 및 분리(Source Separation)
- 선박소음, 파도소음 등 인공음 제거를 위해
U-Net 기반 신호 분리 모델 적용 - Signal-to-Noise Ratio(SNR) +6~8 dB 향상
4.3 다중모달 학습(Multimodal Learning)
- 음향 + 환경 데이터(수온, 염분, 위치)를 함께 학습시켜
종별 출현 확률을 문맥적으로 보정 - 예: 특정 수온 범위에서만 출현하는 어류음 자동 필터링
4.4 주파수-시간 도메인 통합 특징 추출
- CNN이 공간 주파수 패턴을,
Transformer가 시간적 상호작용을 담당하도록 설계 - 결과적으로 기존 LSTM 단독 대비 정확도 +12~15% 향상
4.5 앙상블(Ensemble) 학습
- 서로 다른 모델(CNN, CRNN, Transformer)을 병렬로 학습시켜
최종 출력을 가중 평균함으로써 잡음 환경에서의 안정성 확보
5. 응용 사례 및 평가
5.1 한국 남해 해역 생물음 자동분류 시스템 (KIOST, 2024)
- CNN–Transformer 하이브리드 모델 적용
- 주요 어류 12종, 갑각류 4종, 고래류 3종 자동 분류
- 평균 정확도 93.6%, F1-score 0.91
- 수동 분석 대비 처리 속도 20배 향상
5.2 NOAA ‘Deep Ocean SoundNet’ 프로젝트 (미국, 2023)
- 200TB의 글로벌 음향 데이터를 Transformer 기반 모델로 학습
- 고래류·돌고래류 분류 정확도 95% 이상 달성
- 모델이 새로운 해역(남극, 북태평양)에서도 Zero-shot 분류 성능 유지
5.3 일본 JAMSTEC의 “Bioacoustic AI Buoy”
- 부이에 탑재된 저전력 AI 칩으로 실시간 분류 수행
- 통신 대역폭을 절감하며,
24시간 연속 생물다양성 모니터링 가능
6. 결론
심층 신경망 기반 해양 생물음 자동 분류 시스템은
해양 생태계의 소리를 데이터로 읽는 “AI 청각 시스템”이다.
이 기술은
- 생물다양성 실시간 감시,
- 보호종 서식지 탐지,
- 해양공사 환경영향 평가,
- 사운드스케이프 기반 복원 연구 등
다양한 분야에서 핵심 인프라로 자리 잡고 있다.
향후 발전 방향은 다음과 같다.
- 대규모 공개 데이터셋 구축 및 국제 공유
- Explainable AI(설명 가능한 AI) 기반 생태 신호 해석
- 지속학습(Continual Learning) 시스템으로 진화
AI가 바다의 소리를 “이해”하게 되는 순간,
인류는 비로소 바다 생태계의 대화를 실시간으로 들을 수 있게 될 것이다.