분류 전체보기 7

[논문 리뷰] Dreamer v4: Training Agents Inside of Scalable World Models

https://danijar.com/project/dreamer4/ Training Agents Inside of Scalable World ModelsIntroducing Dreamer 4 World models equip agents with a deep understanding of the world and the ability to predict the future. However, previous world models have been unable to accurately predict object interactions in complex environents. We present Dreamdanijar.comGoogle Deepmind에서 발표한 월드 모델 agent 시리즈인 dreamer..

[논문 리뷰] SAM-6D: Segment Anything Model Meets Zero-Shot 6D Object Pose Estimation

1. Preliminary진행하기에 앞서 다음 논문들을 미리 읽으면 좋다MAE- Masked Autoencoders are Scaleable Vision LearnersCLIP- Learning Transferable Visual Models From Natural Language SupervisionSegment Anything(SAM)1.1. Zero-shot Learningtrain set에 포함되지 않은 unseen data를 입력받았을 때 seen class로 예측하지 않도록 학습시키는 분야이다.Generalized Zero-Shot Learningtest할 때 seen, unseen data를 둘 다 넣는 것. (ZSL은 unseen만 test한다.) 분류Transductive GZSL사용하는..

[논문 리뷰] CDPN: Coordinates-Based Disentangled Pose Network for Real-Time RGB-Based 6-DoF Object Pose Estimation

CDPN은 단일 RGB 이미지로부터 6D 객체 포즈를 추정하기 위해 고안된 네트워크이다.Dynamic하게 이미지를 zoom-in해서 임의로 노이즈가 들어간 크롭 이미지를 backbone에 넣고, 회전과 변환을 개별적으로 학습하여 더 효율적이고 정확하게 포즈를 추정한다.  구조2D-3D correspondence를 구축하기 위해서는 정확한 객체를 segmentation해야 한다. Semantic segmentation은 동일 객체가 여러 개 존재할 때 다루기 어렵고 mask-rcnn과 같은 instance segmentation은 추론 속도가 느리다.object extraction간단하고 빠른 객체 검출기 (예: Tiny YOLOv3)를 사용해 대략적인 검출 수행.정확한 세그멘테이션은 필요하지 않으므로 D..

[논문 리뷰] DINOv2: Learning Robust Visual Features without Supervision

Meta에서 발표한 DINO의 후속 버전 DINOv2를 리뷰해 보도록 하겠다. attention과 트랜스포머 모델, DINO에 대해 알고 있는 편이 이해하기 쉬울 것 같다. 특별히 새로운 기법을 도입했다기보단 기존 다양한 연구들을 섞어서 재조합한 느낌~ 다음 웹페이지에서 실제로 사용해볼 수 있다. 진짜 잘 작동됨!https://dinov2.metademolab.com/PreliminaryTransformer modelRNN, CNN 대신 Attention만 사용해 입출력 시퀀스의 연관성 처리하기 (Attention is all you need)Attention: 한 문장(이미지) 들 간의 요소들의 연관성을 알아내는 것. 주목할 요소 찾기! 입력 벡터는 학습 가능한 Weight를 이용해서 쿼리, 키, 값 ..

[논문 리뷰] GeDi: Learning general and distinctive 3D local deep descriptors for point cloud registration

point cloud registration을 위한 descriptor를 만드는 방법을 제안한 논문이다.DIP(Distinctive 3D local deep descriptors)와 비슷한 부분이 많다.PreliminarySpatial Transformer Network기존 CNN에 spatially invariant한 특성을 더해주기 위해 고안된 mini network. 전체 network에 포함시켜서 같이 backprop시켜주면 된다.전체 구조는 다음과 같다.Localization networkinput feature map U가 localization net에 들어가서 U에 적용할 transformation parameter θ를 뽑아낸다. θ는 transformation의 종류에 따라 shape이..

[논문 리뷰] ReLU Fields: The Little Non-linearity That Could

mistuba3에 있는 radiance field reconstruction(nerf-like) method는 ReLU Fields를 기반으로 한다. mitsuba3 렌더러를 이용해 보려다가 relu-field를 먼저 이해해야 할 것 같아 리뷰해 본다!! ReLU-Field와 기존 NeRF와의 가장 큰 차이점은, MLP같은 neural network를 사용하지 않고 scene을 만든다는 것이다.기존 MLP 방식은 memory를 적게 차지하지만 train, evaluate 속도가 느리다는 단점이 있다. 특히 NeRF에서 볼륨 렌더링을 할 때 픽셀당 evaluation을 여러 번 해야 하는 것처럼 한 개의 신호 샘플 당 여러 번의 evaluation이 필요한 경우 더욱 느려진다. MLP를 사용하지 않고 s..

[Error] D-NeRF: Function 'CatBackward' returned nan values in its 20th output.

졸업논문 관련해서 D-NeRF 코드를 실행하다가 다음과 같은 에러가 발생하면서 코드가 멈추는 문제가 자꾸 발생했다.RuntimeError: Function 'CatBackward' returned nan values in its 20th output.loss.backward()를 할 때 nan이 발생하면서 역전파가 실패했다는 뜻이다.어디에서 NaN이 발생한 건지 찾아보기 위해 render() 결과 중 어느 것이 문제인지 보기 위해 nan 체크 코드를 다음과 같이 넣었다. (너무 커져서 값이 이상한가 싶어서 Output clamping도 적용했다) ##### Core optimization loop #####rgb, disp, acc, extras = render(H, W, focal, chunk=ar..

기타 2024.06.27