픽셀아트 비디오 캡셔닝을 위한 VL 모델 실험 후기
용어
캡셔닝: 이미지나 비디오 콘텐츠를 자연어로 설명하는 텍스트 자동 생성 기술
VL 모델: Vision-Language 모델로, 시각 데이터와 텍스트를 동시 처리하여 멀티모달 이해 및 생성을 수행하는 AI 시스템
동기
게임 개발에서 인게임 스프라이트 애니메이션 제작 비용 절감을 위해 생성 AI 활용을 검토했다.
Wan 2.1/2.2 기반 LoRA 모델 훈련에는 균일한 스타일의 짧은 비디오와 해당 설명 캡션이 포함된 데이터셋이 필요하다.
수백 개 비디오에 대한 수동 캡션 작성은 시간과 비용 측면에서 비효율적이다. 따라서, VL 모델 기반 캡션 생성 자동화를 고려하였다.
VL 모델 선정 과정
Wan 2.1 LoRA 제작 경험이 있는 개발자들의 블로그 포스팅을 수집하여 실제 사용된 VL 모델들을 조사했다.
seruva19의 포스팅에서 LoRA 제작용 캡셔닝 기법이 상세히 기술되어 있어 주요 참고 자료로 활용했다.
후보 모델 목록
조사된 VL 모델들은 다음과 같다:
CogVLM2: 2024년 5월 20일
CogVLM2-Video-Llama3-Chat: 2024년 7월 8일
DeepSeek-VL-Chat: 2024년 3월 11일
GLM-Edge-V: 2024년 11월 29일
MiniCPM-Llama3-V-2.5: 2024년 5월 20일
Qwen-VL-Chat: 2023년 8월 22일
OmniLMM: 2024년 초반
DeepSeek-V2: 2024년 5월
등등 ..
실험모델 선정
초기 5개 모델에서 성능 테스트를 통해 3개 모델로 압축했다:
CogVLM2-Video-Llama3-Chat-int4: xinference 프레임워크 지원 중단Ovis2-4B: 높은 환각(hallucination) 발생률- Apollo-7B
- Qwen2.5-VL-7B-Instruct
- Keye-VL-8B-Preview
모델 평가를 위해 원신 게임 배경 영상을 테스트 케이스로 활용했다.
Describe this video in detail.

| MODEL | EN | KO |
|---|---|---|
| Apollo | The video showcases a serene and picturesque landscape featuring a stone bridge with ornate railings, set against a backdrop of lush greenery and mist-shrouded mountains. The sky is clear with a few scattered clouds, enhancing the tranquil atmosphere. | 화려한 난간을 가진 석교가 무성한 녹음과 안개에 싸인 산들을 배경으로 한 고요하고 그림 같은 풍경을 보여주는 비디오다. 하늘은 몇 개의 흩어진 구름과 함께 맑아 평온한 분위기를 강화한다. |
| Qwen | The video depicts a serene and picturesque landscape, likely from a video game or animated scene. The viewer’s perspective is from a high vantage point, looking out over a lush, green valley. The foreground features a stone railing with intricate carvings, suggesting the viewpoint might be part of a balcony or terrace. The railing casts shadows on the ground, indicating that the sun is shining brightly. In the middle ground, there are rolling hills covered in vibrant green grass and dotted with trees. The hills extend into the distance, creating a sense of depth and vastness. The sky above is a clear blue with a few scattered white clouds, adding to the tranquil atmosphere. In the background, there are towering mountains shrouded in mist, giving the scene a mystical and otherworldly feel. The mountains appear to have a mix of rocky and forested areas, with some structures visible on their peaks, possibly indicating human habitation or ancient ruins. Overall, the scene is peaceful and inviting, with a harmonious blend of natural beauty and architectural elements. The lighting and colors are vivid, enhancing the magical and idyllic quality of the environment. | 비디오게임이나 애니메이션 장면으로 보이는 고요하고 그림 같은 풍경이다. 시청자의 시점은 높은 곳에서 무성한 녹색 계곡을 내려다보는 위치다. 전경에는 정교한 조각이 새겨진 석조 난간이 있어, 이 시점이 발코니나 테라스의 일부임을 시사한다. 난간이 바닥에 그림자를 드리우고 있어 밝은 태양이 빛나고 있음을 보여준다. 중경에는 생생한 녹색 풀로 덮이고 나무들이 점재하는 구릉들이 있다. 언덕들이 멀리까지 펼쳐져 깊이감과 광활함을 연출한다. 위쪽 하늘은 몇 개의 흩어진 하얀 구름과 함께 맑은 파란색을 띠어 평온한 분위기를 더한다. 배경에는 안개에 싸인 우뚝 솟은 산들이 있어 신비롭고 초월적인 느낌을 준다. 산들은 바위와 숲이 섞인 지역으로 보이며, 봉우리에 일부 구조물들이 보여 인간의 거주지나 고대 유적의 가능성을 암시한다. 전체적으로 이 장면은 평화롭고 매력적이며, 자연의 아름다움과 건축적 요소의 조화로운 조합을 보여준다. 조명과 색채가 생생해 환경의 마법적이고 목가적인 특성을 강화한다. |
| Keye | The video showcases a serene and picturesque landscape viewed from a stone balcony adorned with intricate carvings. The balcony is surrounded by lush greenery, with large, leafy trees framing the scene on both sides. Beyond the balcony, a vast and vibrant valley unfolds, characterized by rolling hills, dense forests, and a few scattered structures in the distance. The sky above is clear and blue, dotted with a few fluffy white clouds, suggesting a bright and sunny day. The overall atmosphere is tranquil and inviting, evoking a sense of peace and natural beauty. | 정교한 조각으로 장식된 석조 발코니에서 바라본 고요하고 그림 같은 풍경을 보여주는 비디오다. 발코니는 무성한 녹음에 둘러싸여 있으며, 양쪽에 큰 잎이 무성한 나무들이 장면을 액자처럼 감싸고 있다. 발코니 너머로는 구릉, 울창한 숲, 멀리 흩어진 몇 개의 구조물들로 특징지어지는 광활하고 생동감 있는 계곡이 펼쳐진다. 위쪽 하늘은 몇 개의 푹신한 하얀 구름이 점재한 맑고 파란색으로 밝고 화창한 날을 시사한다. 전체적인 분위기는 평온하고 매력적이어서 평화와 자연의 아름다움을 불러일으킨다. |

| MODEL | EN | KO |
|---|---|---|
| Apollo | The video showcases a serene, snow-covered landscape with a calm river flowing through it. The sky is a clear blue with a few scattered clouds, and the mountains in the background are also blanketed in snow. A small campfire burns brightly on the left side of the frame, casting a warm glow against the cold surroundings. The fire’s light dances off the frosty grass and the icy river, creating a tranquil atmosphere. The scene remains static, emphasizing the peacefulness of the environment. | 고요한 강이 흐르는 눈 덮인 풍경을 보여주는 비디오다. 하늘은 몇 개의 흩어진 구름과 함께 맑은 파란색이며, 배경의 산들도 눈으로 덮여 있다. 프레임 왼쪽에서는 작은 캠프파이어가 밝게 타오르며 차가운 주변에 따뜻한 빛을 비춘다. 불빛이 서리 낀 풀과 얼어붙은 강에서 춤추며 평온한 분위기를 연출한다. 장면은 정적으로 유지되어 환경의 평화로움을 강조한다. |
| Qwen | The video depicts a serene, snowy landscape with a character standing near a small body of water, possibly a pond or a frozen lake. The environment is characterized by snow-covered ground and sparse vegetation, including some evergreen trees that are lightly dusted with snow. The sky above is a soft blue with scattered clouds, suggesting a calm, possibly early morning or late afternoon setting. The character appears to be a small figure, possibly a child or a young adult, dressed in winter clothing suitable for the cold environment. They are holding a glowing object, which could be a lantern or a magical light source, casting a warm glow on their surroundings. This light contrasts with the cool tones of the snow and ice, creating a focal point in the scene. In the background, there are large rock formations and cliffs, adding depth and a sense of scale to the landscape. To the right, there is a structure that resembles a small house or a shelter, partially obscured by the rocky terrain. The overall atmosphere of the video is peaceful and tranquil, evoking a sense of solitude and quiet exploration in a wintry wilderness. | 작은 연못이나 얼어붙은 호수 근처에 서 있는 캐릭터와 함께 고요한 눈 덮인 풍경을 묘사하는 비디오다. 환경은 눈으로 덮인 땅과 눈이 가볍게 쌓인 상록수들을 포함한 드문드문한 식생이 특징이다. 위쪽 하늘은 흩어진 구름과 함께 부드러운 파란색을 띠어 고요한, 아마도 이른 아침이나 늦은 오후 설정을 암시한다. 캐릭터는 작은 인물로 보이며, 아마도 아이나 젊은 성인으로 추정되고, 추운 환경에 적합한 겨울 옷을 입고 있다. 그들은 빛나는 물체를 들고 있는데, 이는 등불이나 마법의 광원일 수 있으며, 주변에 따뜻한 빛을 비추고 있다. 이 빛은 눈과 얼음의 차가운 톤과 대비되어 장면의 초점을 만든다. 배경에는 큰 암석층과 절벽들이 있어 풍경에 깊이와 규모감을 더한다. 오른쪽에는 작은 집이나 피난처처럼 보이는 구조물이 있으며, 바위 지형에 부분적으로 가려져 있다. 비디오의 전체적인 분위기는 평화롭고 고요하며, 겨울 황야에서의 고독감과 조용한 탐험의 느낌을 불러일으킨다. |
| Keye | The video showcases a serene, snowy landscape, likely from a video game or animated scene. The setting is a picturesque winter environment with snow-covered ground, tall grasses dusted with snow, and a frozen body of water in the center. The sky is a soft blue with scattered clouds, suggesting a calm, possibly early morning or late afternoon atmosphere. In the foreground, there is a small, glowing object or creature, emitting a warm, orange light. This object appears to be the focal point of the scene, drawing the viewer’s attention amidst the cool, blue-toned surroundings. The light from this object contrasts beautifully with the white snow and the icy blue of the water, creating a sense of warmth and mystery. Surrounding the water are large, rocky mountains with snow-capped peaks, adding depth and grandeur to the scene. The mountains are partially covered with snow, and some bare trees can be seen, indicating a harsh, cold climate. The overall composition of the video is tranquil and inviting, with the glowing object adding an element of intrigue and wonder. | 비디오게임이나 애니메이션 장면에서 나올 법한 고요한 눈 덮인 풍경을 보여주는 비디오다. 설정은 눈으로 덮인 땅, 눈이 쌓인 높은 풀들, 중앙의 얼어붙은 수역이 있는 그림 같은 겨울 환경이다. 하늘은 흩어진 구름과 함께 부드러운 파란색으로, 고요한, 아마도 이른 아침이나 늦은 오후 분위기를 시사한다. 전경에는 따뜻한 주황색 빛을 발하는 작고 빛나는 물체나 생물이 있다. 이 물체는 장면의 초점으로 보이며, 차가운 파란 톤의 주변 환경 속에서 시청자의 관심을 끈다. 이 물체에서 나오는 빛은 하얀 눈과 얼음처럼 파란 물과 아름답게 대비되어 따뜻함과 신비로움을 연출한다. 물 주변에는 눈 덮인 봉우리를 가진 크고 바위가 많은 산들이 있어 장면에 깊이와 웅장함을 더한다. 산들은 부분적으로 눈으로 덮여 있고 일부 벌거벗은 나무들이 보여 혹독하고 추운 기후를 나타낸다. 비디오의 전체적인 구성은 평온하고 매력적이며, 빛나는 물체가 흥미와 경이로움의 요소를 더한다. |
모델 파라미터 규모별 성능
RTX 4070Ti 환경에서 최대 8B 파라미터 모델까지 실행 가능했다. Apollo 3B/7B 모델로 캡션 생성 품질을 비교 평가했다.
3B 모델은 영상 장면에 대해 높은 정확도의 캡션을 생성했다. 7B 모델은 묘사에 추가 추론을 더해 상세한 설명을 제공하고 카메라 동작까지 기술하는 경향을 보였다.
하드웨어 제약 내에서 최대 파라미터 수를 활용하는 것이 캡션 품질 향상에 효과적이라고 판단했다.
Apollo 3B/7B 캡셔닝 예시

| 모델 | EN | KO |
|---|---|---|
| Apollo 3B | The video showcases a serene and picturesque scene of a lush, green forest with tall trees and vibrant yellow flowers. A stone path winds through the center of the frame, leading towards a majestic tower with a blue spire that stands out against the backdrop of the clear blue sky dotted with fluffy white clouds. The tranquil setting is enhanced by the presence of various plants and flowers, including large yellow blooms and smaller green foliage, contributing to the overall sense of peace and natural beauty. | 영상은 울창한 녹색 숲과 높이 뻗은 나무, 선명한 노란 꽃이 어우러진 고요하고 그림 같은 장면을 담고 있다. 화면 중앙을 가로지르는 석조 길은 맑은 하늘과 흩어진 흰 구름을 배경으로 우뚝 솟은 파란 첨탑의 장엄한 탑으로 이어진다. 다양한 식물과 꽃, 큰 노란 꽃과 작은 녹색 잎사귀들이 주변을 채워 평화롭고 자연미 넘치는 분위기를 더욱 돋보이게 한다. |
| Apollo 7B | The video showcases a vibrant and lush forest scene, characterized by a bright blue sky dotted with fluffy white clouds. Dominating the background is a towering rock formation crowned with a glowing blue spire, suggesting a mystical or magical significance. The foreground features a winding dirt path that meanders through the verdant landscape, flanked by an array of large, yellow flowers and dense green foliage. As the camera slowly pans to the right, more of the enchanting forest and the towering rock formation are revealed, enhancing the sense of wonder and exploration. | 푹신한 하얀 구름이 점재한 밝은 파란 하늘이 특징인 생동감 있고 무성한 숲 장면을 보여주는 비디오다. 배경을 지배하는 것은 빛나는 파란 첨탑으로 장식된 우뚝 솟은 암석 지형으로, 신비롭거나 마법적인 의미를 시사한다. 전경에는 큰 노란 꽃들과 울창한 녹색 잎사귀에 둘러싸여 푸른 풍경을 구불구불 지나가는 흙길이 있다. 카메라가 천천히 오른쪽으로 패닝하면서 매혹적인 숲과 우뚝 솟은 암석 지형이 더 많이 드러나 경이로움과 탐험의 감각을 강화한다. |
비디오 포맷 최적화
캡션 생성용 비디오 소스의 기술적 사양을 결정해야 했다:
- 해상도
- FPS
- 길이
Wan 공식 문서에서는 명확한 권장 사양을 제시하지 않았다. 따라서 기존 LoRA 모델 제작자들이 사용한 포맷을 참고하여 픽셀아트에 최적화된 설정을 도출했다.
프레임 길이 설정
최소 1초 이상으로 설정했다. 보유한 인게임 스프라이트시트는 8프레임이었으나 16프레임으로 확장이 필요했다. 이를 위해 보간 알고리즘을 사용해 프레임을 늘리는 것을 고려하였다.
프레임 보간 알고리즘 테스트 결과:
- RIFE47, DAIN, XVFI 등 다수 알고리즘 검토
- 픽셀아트 특성상 적절한 보간 결과 미달성
픽셀아트에 적합한 보간 알고리즘을 찾기 어려워 프레임 복제 방식(1-1-2-2-…-8-8)을 적용하여 16프레임 1초 재생을 구현했다.
해상도 최적화 실험
원본 스프라이트와 유사한 128×128과 4배 스케일링한 512×512 해상도로 영상을 제작하여 캡션 품질을 비교 평가했다.
Apollo 3B 모델을 사용한 동일 영상의 해상도별 캡션 생성 결과는 다음과 같다:

| RES | EN | KO |
|---|---|---|
| 128 | The video features a pixelated knight character, clad in armor and wielding a sword, standing against a pitch-black background. | 영상은 갑옷을 입고 검을 든 픽셀 기사 캐릭터가 새까만 배경 앞에 서 있는 장면을 보여준다. |
| 512 | The video features a pixelated character clad in armor, wielding a sword, and standing against a pitch-black background. | 갑옷을 입고 검을 든 픽셀 캐릭터가 새까만 배경에 서 있다. |
해상도 실험 결과 및 Apollo 모델 평가
10여 개 픽셀아트 테스트에서 두 해상도 간 유의미한 성능 차이는 관찰되지 않았다. 기존 VL 모델들이 400p 이상 해상도를 사용한다는 참고 사항을 바탕으로 512×512를 최종 해상도로 결정했다.
최종 모델 비교: Qwen2.5-VL vs Keye-VL
Apollo 모델은 배경 및 실사 피사체에서는 균일한 캡션 품질을 생성하는 편이지만 픽셀아트에서는 정확도 및 상세도가 떨어지는 것을 확인했다. Apollo 모델의 학습 데이터셋에 픽셀아트 리소스가 부족한 것을 확인하였고 픽셀아트 캡셔닝에는 부적합하다고 판단했다. 따라서 Apollo VL 모델을 후보에서 제외했다.
최종 선정된 두 모델의 성능을 비교 평가했다:
- Qwen2.5-VL-7B-Instruct
- Keye-VL-8B-Preview
테스트 설계
정상 응답 생성 확인을 위해 원신 배경 3개와 인게임 스프라이트 애니메이션 11개를 테스트했다.
환경 설정: 각 모델은 Hugging Face README 권장 방법에 따라 환경을 구성했다.
프롬프트 설계: 픽셀아트 특화 캡션 생성을 위한 시스템 지침을 작성했다. 주요 요구사항은 다음과 같다:
- 애니메이션 타입(대기, 공격, 스킬 등) 정확한 분류
- 캐릭터 외형(갑옷, 무기, 색상) 세부 묘사
- 움직임 패턴과 프레임 순환 방식 기술
- 시각 효과 및 연출 요소 설명
messages = [
{
"role": "system",
"content": """
You are an expert pixel art animation describer specializing in mobile game character sprites.
For the following pixel art character animation video, write a detailed, precise caption that:
- Begins with the exact phrase: "PixelStyle".
- Uses present-tense, concrete language that describes only what is visible in the animation.
- Follows the order "Animation Type -> Character Description -> Movement Details -> Visual Effects"
MANDATORY ELEMENTS to include:
1. Animation Type: Identify the exact animation category (attack, idle, run, retire, skill, victory)
2. Character Appearance: Describe clothing/armor, weapon, dominant colors, and distinctive features
3. Movement Pattern: Describe the motion characteristics specific to pixel sprite animation (frame-by-frame movement, looping pattern, timing)
4. Pixel Art Details: Note sprite resolution feel, color palette, and any particle effects or visual flourishes
STRICT RULES:
- Do not use emotional adjectives or narrative interpretation
- Focus on technical animation details and visual elements only
- Always specify the animation type in the description
- Describe movement as "cycles through X frames" or "loops between poses"
- No artistic style words except the required prefix "PixelStyle"
ANIMATION-SPECIFIC GUIDELINES:
- Attack: Focus on weapon motion, strike poses, recovery frames
- Idle: Describe subtle breathing/swaying motions, static pose variations
- Run: Detail leg cycle, body bob, movement rhythm
- Retire: Describe falling/defeat motion sequence
- Skill: Focus on special effects, unique poses, ability execution
- Victory: Detail celebration gestures, triumphant poses
"""
},
{
"role": "user",
"content": [
{
...
},
{"type": "text", "text": "Describe this video in detail."},
],
}
]
...
# Inference
generated_ids = model.generate(**inputs, max_new_tokens=512)
...
픽셀아트 캡셔닝 예시

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle - Idle. The character stands still, holding a sword at his side. His posture is relaxed yet alert, with slight swaying of the head and shoulders suggesting a calm breathing motion. The animation cycles through two frames, showing minimal change but maintaining a consistent stance. The color palette is muted, with earthy tones for the armor and hair, and a simple white sword. There are no additional visual effects beyond the basic pixel art style. | 픽셀 스타일 - 대기. 캐릭터가 검을 옆구리에 들고 정지해 있다. 자세는 편안하면서도 경계하고 있으며, 머리와 어깨의 약간의 흔들림이 차분한 호흡 동작을 시사한다. 애니메이션은 두 프레임을 순환하며, 최소한의 변화를 보이지만 일관된 자세를 유지한다. 색상 팔레트는 절제되어 있으며, 갑옷과 머리카락에는 흙빛 톤을, 검에는 단순한 흰색을 사용한다. 기본 픽셀 아트 스타일 외에는 추가적인 시각 효과가 없다. |
| Keye | The video features a pixel art animation of a character in a video game. The character appears to be a young, chibi-style figure with short, brown hair and large, expressive blue eyes. They are dressed in a simple, brown outfit that resembles a basic adventurer or warrior’s attire, complete with a short-sleeved top and pants. The character is holding a sword in their right hand, which they wield with a confident and determined posture. The sword is depicted with a metallic sheen, suggesting it is made of metal, and the character’s grip on it indicates readiness for battle or action. The character’s left hand is slightly raised, possibly in a gesture of readiness or emphasis. The animation is looped, meaning the character’s pose and the position of the sword remain consistent throughout the video. There are no other characters or background elements visible, placing the entire focus on the single character and their stance. The pixel art style is evident in the blocky, pixelated design of the character and the sword, which is typical of retro or indie video games. The overall impression is one of a brave, youthful character prepared for an adventure or confrontation. The simplicity of the animation and the focus on the character’s pose convey a sense of determination and readiness. The lack of additional elements keeps the viewer’s attention solely on the character and their expression of readiness. | 비디오 게임의 캐릭터를 픽셀 아트 애니메이션으로 보여준다. 캐릭터는 짧은 갈색 머리와 크고 표현력 있는 파란 눈을 가진 젊고 치비 스타일의 인물로 보인다. 짧은 소매 상의와 바지로 구성된 기본적인 모험가나 전사의 복장과 비슷한 단순한 갈색 옷을 입고 있다. 캐릭터는 오른손에 검을 들고 있으며, 자신감 있고 결연한 자세로 휘두른다. 검은 금속적 광택으로 묘사되어 금속으로 만들어졌음을 시사하며, 캐릭터가 검을 쥐는 방식은 전투나 행동에 대한 준비를 나타낸다. 캐릭터의 왼손은 약간 들려 있어, 아마도 준비나 강조의 제스처일 것이다. 애니메이션은 반복되어 캐릭터의 자세와 검의 위치가 비디오 전체에서 일관되게 유지된다. 다른 캐릭터나 배경 요소는 보이지 않아 단일 캐릭터와 그들의 자세에 전체 초점이 맞춰진다. 픽셀 아트 스타일은 캐릭터와 검의 블록형, 픽셀화된 디자인에서 명백하며, 이는 레트로나 인디 비디오 게임의 전형이다. 전체적인 인상은 모험이나 대결에 준비된 용감하고 젊은 캐릭터이다. 애니메이션의 단순함과 캐릭터의 자세에 대한 집중은 결의와 준비의 감각을 전달한다. 추가 요소의 부족은 시청자의 관심을 캐릭터와 그들의 준비 표현에만 집중시킨다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle - Skill animation. The character, clad in dark armor with a glowing yellow sword, performs a dynamic attack sequence. The animation cycles through several frames showing the knight swinging his sword in a sweeping motion, followed by a dramatic finishing pose where the sword is held high above his head. The background remains black throughout, emphasizing the character’s movements. There are no additional visual effects beyond the sword’s glow and the fluidity of the attack motion. | 픽셀 스타일 - 스킬 애니메이션. 빛나는 노란 검을 든 검은 갑옷의 캐릭터가 역동적인 공격 시퀀스를 수행한다. 애니메이션은 기사가 검을 휘두르는 동작을 보여주는 여러 프레임을 순환하며, 검을 머리 위로 높이 든 극적인 마무리 자세가 뒤따른다. 배경은 전체적으로 검은색으로 유지되어 캐릭터의 움직임을 강조한다. 검의 빛과 공격 동작의 유동성 외에는 추가적인 시각 효과가 없다. |
| Keye | The video features a pixel art animation of a character that appears to be a knight or warrior. The character is depicted in a dark, possibly armored outfit with a hood, giving it a mysterious and formidable appearance. The animation focuses on the character’s movement, specifically the action of drawing and possibly using a weapon. The character’s arm is extended, and a glowing, yellowish arc or blade is visible, suggesting the character is either drawing a sword or casting some kind of energy-based attack. The pixel art style is detailed, with a limited color palette that emphasizes the dark tones of the character’s attire and the bright, contrasting color of the weapon or energy. The animation loops, showing the character in the process of drawing the weapon, with the arc or blade becoming more pronounced and extending outward. The movement is fluid within the constraints of pixel art, with each frame contributing to the overall action of the character preparing for an attack or casting a spell. The background is entirely black, which further highlights the character and the glowing weapon, making them the central focus of the animation. The overall effect is dynamic and engaging, capturing the essence of a powerful and enigmatic warrior in a stylized, pixelated format. | 기사나 전사로 보이는 캐릭터의 픽셀 아트 애니메이션을 보여준다. 캐릭터는 후드가 있는 어둡고 아마도 갑옷을 입은 복장으로 묘사되어 신비롭고 강력한 외모를 준다. 애니메이션은 캐릭터의 움직임, 특히 무기를 뽑고 사용하는 행동에 초점을 맞춘다. 캐릭터의 팔이 뻗어 있고 빛나는 노란빛 호나 날이 보여, 캐릭터가 검을 뽑거나 어떤 종류의 에너지 기반 공격을 시전하고 있음을 시사한다. 픽셀 아트 스타일은 세밀하며, 캐릭터의 복장의 어두운 톤과 무기나 에너지의 밝고 대조적인 색상을 강조하는 제한된 색상 팔레트를 가진다. 애니메이션은 반복되어 무기를 뽑는 과정의 캐릭터를 보여주며, 호나 날이 더욱 두드러지고 바깥쪽으로 확장된다. 움직임은 픽셀 아트의 제약 내에서 유동적이며, 각 프레임이 공격을 준비하거나 주문을 시전하는 캐릭터의 전체 행동에 기여한다. 배경은 완전히 검은색으로, 캐릭터와 빛나는 무기를 더욱 강조하여 애니메이션의 중심 초점이 되게 한다. 전체적인 효과는 역동적이고 매력적이며, 양식화되고 픽셀화된 형식으로 강력하고 수수께끼 같은 전사의 본질을 포착한다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle - Skill animation. The character, a knight with blonde hair and red armor, is depicted mid-skill execution. The animation cycles through several frames showing the knight in various dynamic poses, emphasizing the release of a magical attack. The knight’s arms are extended outward, fingers splayed, as if channeling energy. A glowing aura surrounds the character, highlighting the magical effect. The animation loops between these poses, showcasing the fluidity and intensity of the skill. There are no additional visual effects beyond the glowing aura and the character’s expressive gestures. | 픽셀 스타일 - 스킬 애니메이션. 금발과 빨간 갑옷을 입은 기사가 스킬 실행 중인 모습으로 묘사된다. 애니메이션은 마법 공격의 방출을 강조하며 기사가 다양한 역동적 자세를 취하는 여러 프레임을 순환한다. 기사의 팔이 바깥쪽으로 뻗어 있고 손가락이 펼쳐져 있어 에너지를 집중하는 것처럼 보인다. 빛나는 오라가 캐릭터를 둘러싸며 마법 효과를 강조한다. 애니메이션은 이러한 자세들 사이를 반복하며 스킬의 유동성과 강도를 보여준다. 빛나는 오라와 캐릭터의 표현적 제스처 외에는 추가적인 시각 효과가 없다. |
| Keye | The video features a pixel art animation of a character that appears to be a chibi-style (small, cute) depiction of a warrior or hero. The character has short, light-colored hair and is wearing a dark outfit with red accents, possibly armor or clothing. The character is holding a weapon, which looks like a sword or a similar blade, and is in a dynamic pose that suggests movement or action. The animation is looped, showing the character in various frames that depict motion. The character’s expression and posture change slightly between frames, indicating a sense of action or combat. The pixel art style is reminiscent of retro video games, with a limited color palette and a focus on simple, clear lines and shapes. The background is plain black, which helps to highlight the character and its movements. The overall impression is that of a small, energetic character engaged in some form of action or battle, presented in a charming and stylized manner typical of chibi art. | 전사나 영웅의 치비 스타일(작고 귀여운) 묘사로 보이는 캐릭터의 픽셀 아트 애니메이션을 보여준다. 캐릭터는 짧은 밝은 색 머리를 가지고 있고 빨간 악센트가 있는 어두운 복장, 아마도 갑옷이나 의복을 입고 있다. 캐릭터는 검이나 비슷한 날과 같은 무기를 들고 있으며, 움직임이나 행동을 시사하는 역동적인 자세를 취하고 있다. 애니메이션은 반복되어 움직임을 묘사하는 다양한 프레임에서 캐릭터를 보여준다. 캐릭터의 표정과 자세가 프레임 사이에서 약간 변하여 행동이나 전투의 감각을 나타낸다. 픽셀 아트 스타일은 제한된 색상 팔레트와 단순하고 명확한 선과 형태에 중점을 둔 레트로 비디오 게임을 연상시킨다. 배경은 평범한 검은색으로, 캐릭터와 그 움직임을 강조하는 데 도움이 된다. 전체적인 인상은 치비 아트의 전형적인 매력적이고 양식화된 방식으로 제시된, 어떤 형태의 행동이나 전투에 참여하는 작고 활기찬 캐릭터이다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle - Attack. The character, a knight with fiery red hair and armor, wields a large axe. The animation depicts a powerful swing of the axe, starting from a raised position above the head and descending in a sweeping arc towards the ground. The knight’s stance shifts slightly during the attack, emphasizing the forceful motion. The axe’s blade is detailed with sharp edges and a metallic sheen, while the knight’s armor glints subtly under the light. The animation cycles through 5 frames, showing the axe’s trajectory and the knight’s dynamic pose changes. There are no additional visual effects beyond the weapon’s motion and the knight’s shifting posture. | 픽셀 스타일 - 공격. 불타는 빨간 머리와 갑옷을 입은 기사가 큰 도끼를 휘두른다. 애니메이션은 머리 위의 높은 위치에서 시작하여 땅을 향해 휘는 호를 그리며 내려오는 강력한 도끼 휘두르기를 묘사한다. 공격 중 기사의 자세가 약간 변하며 강력한 동작을 강조한다. 도끼날은 날카로운 모서리와 금속적 광택으로 세밀하게 표현되었으며, 기사의 갑옷은 빛 아래에서 은은하게 반짝인다. 애니메이션은 5개의 프레임을 순환하며 도끼의 궤적과 기사의 역동적인 자세 변화를 보여준다. 무기의 동작과 기사의 자세 변화 외에는 추가적인 시각 효과가 없다. |
| Keye | The video features a pixel art animation of two characters against a black background. The characters appear to be in a dynamic interaction, possibly an attack or a skill move. Character Appearance: - The character on the left has long, flowing red hair and is wearing dark, detailed armor with a horned helmet. The armor has a mix of dark and metallic colors, giving it a formidable appearance. - The character on the right is partially visible, with orange hair and a similar armored look. This character seems to be in a supporting or assisting role, as indicated by their positioning and the direction of their gaze. Movement Details: - The animation cycles through a series of frames, showing the character on the left in various poses. Initially, the character appears to be in a stance ready for action. - As the animation progresses, the character on the left extends their arm, seemingly casting a spell or performing a skill. The character’s body language suggests a focused and powerful movement. - The character on the right is shown in a supportive pose, with their arm extended towards the first character, possibly channeling energy or providing assistance. Visual Effects: - The pixel art style is evident in the detailed, blocky textures of the characters’ clothing and armor. The color palette is primarily dark with accents of red and orange, creating a striking contrast. - There are no explicit particle effects or additional visual flourishes, keeping the focus on the characters and their interaction. Overall, the animation depicts a moment of action or skill execution between the two characters, with the character on the left taking the lead in the dynamic movement. The supporting character adds to the sense of teamwork or collaboration in the scene. | 검은 배경에 대한 두 캐릭터의 픽셀 아트 애니메이션을 보여준다. 캐릭터들은 역동적인 상호작용, 아마도 공격이나 스킬 동작에 있는 것으로 보인다. 캐릭터 외모: - 왼쪽 캐릭터는 길고 흐르는 빨간 머리를 가지고 있으며 뿔이 있는 헬멧과 함께 어둡고 세밀한 갑옷을 입고 있다. 갑옷은 어두운 색과 금속 색의 혼합으로 강력한 외모를 준다. - 오른쪽 캐릭터는 부분적으로 보이며, 주황색 머리와 비슷한 갑옷 외모를 가진다. 이 캐릭터는 위치와 시선의 방향으로 보아 지원이나 보조 역할에 있는 것으로 보인다. 움직임 세부사항: - 애니메이션은 일련의 프레임을 순환하며 왼쪽 캐릭터를 다양한 자세로 보여준다. 처음에 캐릭터는 행동 준비 자세에 있는 것으로 보인다. - 애니메이션이 진행되면서 왼쪽 캐릭터는 팔을 뻗어 주문을 시전하거나 스킬을 수행하는 것으로 보인다. 캐릭터의 몸짓 언어는 집중되고 강력한 움직임을 시사한다. - 오른쪽 캐릭터는 첫 번째 캐릭터를 향해 팔을 뻗은 지원 자세로 보여지며, 아마도 에너지를 전달하거나 도움을 제공하고 있을 것이다. 시각적 효과: - 픽셀 아트 스타일은 캐릭터들의 의복과 갑옷의 세밀하고 블록형 텍스처에서 명백하다. 색상 팔레트는 주로 어두운 색에 빨간색과 주황색 악센트로 인상적인 대조를 만든다. - 명시적인 파티클 효과나 추가적인 시각적 장식은 없어 캐릭터들과 그들의 상호작용에 초점을 유지한다. 전체적으로 애니메이션은 두 캐릭터 간의 행동이나 스킬 실행의 순간을 묘사하며, 왼쪽 캐릭터가 역동적인 움직임을 주도한다. 지원 캐릭터는 장면에서 팀워크나 협력의 감각을 더한다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle - Skill animation. The character, dressed in dark armor with gold accents and wielding a glowing blue sword, performs a dynamic attack sequence. The animation cycles through several frames showing the character in various stages of a powerful slash, with the sword’s blade emitting a bright blue glow. The character’s stance shifts from a ready position to a mid-swing pose, then to a follow-through, and finally to a recovery stance. The sword’s motion is fluid, with the blade curving elegantly through each frame. There are no additional visual effects beyond the glowing sword, maintaining a clean and focused animation style typical of pixel art. | 픽셀 스타일 - 스킬 애니메이션. 금색 장식이 있는 검은 갑옷을 입고 빛나는 파란 검을 든 캐릭터가 역동적인 공격 시퀀스를 수행한다. 애니메이션은 검날에서 밝은 파란 빛이 발산되는 강력한 베기의 다양한 단계에서 캐릭터를 보여주는 여러 프레임을 순환한다. 캐릭터의 자세가 준비 자세에서 중간 휘두르기 자세, 후속 동작, 마지막으로 회복 자세로 변한다. 검의 움직임은 유동적이며, 날이 각 프레임을 통해 우아하게 곡선을 그린다. 빛나는 검 외에는 추가적인 시각 효과가 없어 픽셀 아트 특유의 깔끔하고 집중된 애니메이션 스타일을 유지한다. |
| Keye | The video showcases a pixel art animation of a character with light blue hair and dark clothing. The character is depicted in a dynamic pose, holding a large, curved weapon that resembles a scythe or sickle. The animation is presented in a chibi or cute style, with exaggerated features typical of pixel art. Throughout the sequence, the character cycles through various frames, suggesting movement or an attack animation. The character’s hair and clothing details are visible, with the light blue hair standing out against the darker tones of the outfit. The weapon is prominently featured, with its curved blade and handle clearly defined in each frame. The background is plain black, which helps to emphasize the character and the weapon. The pixel art style is evident in the blocky, colorful sprites that make up the character and the weapon. There are no other elements or characters in the video, focusing solely on the animated character and its movement. The animation loops, indicating a repetitive motion, likely representing an attack or a skill being performed by the character. The overall impression is of a stylized, animated character in action, captured through pixel art techniques. | 밝은 파란 머리와 어두운 의복을 가진 캐릭터의 픽셀 아트 애니메이션을 보여준다. 캐릭터는 낫이나 낫과 비슷한 크고 휜 무기를 들고 역동적인 자세로 묘사된다. 애니메이션은 픽셀 아트의 전형적인 과장된 특징을 가진 치비나 귀여운 스타일로 제시된다. 시퀀스 전체에서 캐릭터는 다양한 프레임을 순환하며 움직임이나 공격 애니메이션을 시사한다. 캐릭터의 머리카락과 의복 세부사항이 보이며, 밝은 파란 머리가 복장의 어두운 톤에 대해 돋보인다. 무기는 두드러지게 특징지어지며, 휜 날과 손잡이가 각 프레임에서 명확하게 정의된다. 배경은 평범한 검은색으로, 캐릭터와 무기를 강조하는 데 도움이 된다. 픽셀 아트 스타일은 캐릭터와 무기를 구성하는 블록형, 다채로운 스프라이트에서 명백하다. 비디오에는 다른 요소나 캐릭터가 없어 애니메이션 캐릭터와 그 움직임에만 집중한다. 애니메이션은 반복되어 반복적인 동작을 나타내며, 아마도 캐릭터가 수행하는 공격이나 스킬을 나타낼 것이다. 전체적인 인상은 픽셀 아트 기법을 통해 포착된 행동 중인 양식화된 애니메이션 캐릭터이다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle attack animation. The character, clad in red armor with blue accents and wielding a sword, performs a dynamic swing. The animation cycles through three frames showing the sword’s arc from a low position to a high overhead strike, then back down. The character’s stance shifts slightly between frames, emphasizing the motion of the sword. There are no additional visual effects beyond the sword’s motion and the character’s subtle adjustments to maintain balance during the swing. | 픽셀 스타일 공격 애니메이션. 파란 장식이 있는 빨간 갑옷을 입고 검을 든 캐릭터가 역동적인 휘두르기를 수행한다. 애니메이션은 검이 낮은 위치에서 높은 머리 위 타격으로, 그 다음 다시 아래로 내려오는 호를 보여주는 세 개의 프레임을 순환한다. 캐릭터의 자세가 프레임 사이에서 약간 변하며 검의 움직임을 강조한다. 검의 움직임과 휘두르기 중 균형을 유지하기 위한 캐릭터의 미묘한 조정 외에는 추가적인 시각 효과가 없다. |
| Keye | The video showcases a pixel art animation of a character with vibrant, red hair and blue horns. The character is depicted in a chibi-style, which is characterized by a cute, exaggeratedly small body and large head. The character is holding a weapon that appears to be a curved blade or sickle, with a design that includes blue and white elements, possibly indicating a magical or enchanted property. The animation is looped, meaning it repeats the same sequence of frames over and over. In each frame, the character is shown in a dynamic pose, suggesting movement or action. The character’s expression appears to be one of determination or focus, with wide eyes and a slightly open mouth, which adds to the sense of action and intensity. The color palette is primarily composed of reds, blues, and whites, with the red hair being the most prominent feature. The blue horns and the blue and white weapon add contrast and visual interest. The pixel art style is evident in the blocky, grid-like appearance of the character and the weapon, which is typical of retro or indie video games. The background is entirely black, which makes the character stand out prominently and ensures that the viewer’s attention is focused solely on the character and its actions. There are no other elements or distractions in the video, further emphasizing the character’s importance and the dynamic nature of the animation. Overall, the video presents a visually engaging and dynamic pixel art animation of a character with distinctive features and a clear sense of action and movement. The looped nature of the animation suggests that it is designed to be viewed repeatedly, allowing the viewer to appreciate the details and the fluidity of the character’s movements. | 생생한 빨간 머리와 파란 뿔을 가진 캐릭터의 픽셀 아트 애니메이션을 보여준다. 캐릭터는 귀엽고 과장되게 작은 몸과 큰 머리로 특징지어지는 치비 스타일로 묘사된다. 캐릭터는 휜 날이나 낫으로 보이는 무기를 들고 있으며, 파란색과 흰색 요소를 포함한 디자인으로 아마도 마법적이거나 마법에 걸린 속성을 나타낼 것이다. 애니메이션은 반복되어 같은 프레임 시퀀스를 계속 반복한다. 각 프레임에서 캐릭터는 움직임이나 행동을 시사하는 역동적인 자세로 보여진다. 캐릭터의 표정은 넓은 눈과 약간 열린 입으로 결의나 집중 중 하나로 보이며, 이는 행동과 강도의 감각을 더한다. 색상 팔레트는 주로 빨간색, 파란색, 흰색으로 구성되어 있으며, 빨간 머리가 가장 두드러진 특징이다. 파란 뿔과 파란색과 흰색 무기가 대조와 시각적 관심을 더한다. 픽셀 아트 스타일은 레트로나 인디 비디오 게임의 전형인 캐릭터와 무기의 블록형, 격자 같은 외모에서 명백하다. 배경은 완전히 검은색으로, 캐릭터를 두드러지게 만들고 시청자의 관심이 캐릭터와 그 행동에만 집중되도록 한다. 비디오에는 다른 요소나 방해 요소가 없어 캐릭터의 중요성과 애니메이션의 역동적 성격을 더욱 강조한다. 전체적으로 비디오는 독특한 특징과 명확한 행동과 움직임 감각을 가진 캐릭터의 시각적으로 매력적이고 역동적인 픽셀 아트 애니메이션을 제시한다. 애니메이션의 반복적 성격은 반복적으로 보도록 설계되어 시청자가 세부사항과 캐릭터 움직임의 유동성을 감상할 수 있음을 시사한다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle - Attack animation. The character, a knight with brown hair and armor, wields a sword. The animation cycles through three frames showing the knight in a ready stance, then swinging the sword forward in a sweeping motion, and finally recovering the sword back to the ready position. The movement is smooth and fluid, with the sword’s blade clearly defined against the dark background. There are no additional visual effects beyond the basic animation of the sword and the knight’s stance changes. | 픽셀 스타일 - 공격 애니메이션. 갈색 머리와 갑옷을 입은 기사가 검을 휘두른다. 애니메이션은 기사가 준비 자세에 있다가 검을 앞으로 휘두르는 동작, 마지막으로 검을 다시 준비 자세로 되돌리는 세 개의 프레임을 순환한다. 움직임은 부드럽고 유동적이며, 검날이 어두운 배경에 대해 명확하게 정의된다. 검의 기본 애니메이션과 기사의 자세 변화 외에는 추가적인 시각 효과가 없다. |
| Keye | The video features a pixel art character with a chibi-style design, characterized by large eyes and a small, cute appearance. The character has brown hair and is dressed in a dark outfit with some light-colored accents, possibly a vest or armor. The character is holding a sword, which is visible in some frames. The animation is simple, with the character appearing to be in a static pose or moving minimally. The background is plain black, which makes the character stand out prominently. The pixel art style is evident in the blocky, pixelated appearance of the character and the sword. The overall impression is of a small, possibly heroic or adventurous character, likely from a video game or animated series. | 큰 눈과 작고 귀여운 외모로 특징지어지는 치비 스타일 디자인의 픽셀 아트 캐릭터를 보여준다. 캐릭터는 갈색 머리를 가지고 있으며 밝은 색 악센트가 있는 어두운 복장, 아마도 조끼나 갑옷을 입고 있다. 캐릭터는 일부 프레임에서 보이는 검을 들고 있다. 애니메이션은 단순하며, 캐릭터가 정적인 자세에 있거나 최소한으로 움직이는 것으로 보인다. 배경은 평범한 검은색으로, 캐릭터를 두드러지게 만든다. 픽셀 아트 스타일은 캐릭터와 검의 블록형, 픽셀화된 외모에서 명백하다. 전체적인 인상은 아마도 비디오 게임이나 애니메이션 시리즈에서 나온 작고 아마도 영웅적이거나 모험적인 캐릭터이다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle - Attack. The character, a knight with red hair and armor, wields a sword. The animation starts with the knight in a ready stance, holding the sword at the side. As the attack begins, the knight swings the sword forward in a circular motion, transitioning into a follow-through pose where the sword is extended outward. The sequence then cycles through various recovery frames, showing the knight returning to the initial ready stance. The animation loops between these poses, maintaining a consistent rhythm typical of pixel art animations. There are no additional visual effects beyond the basic sword motion and the knight’s stance changes. | 픽셀 스타일 - 공격. 빨간 머리와 갑옷을 입은 기사가 검을 휘두른다. 애니메이션은 기사가 검을 옆구리에 든 준비 자세에서 시작한다. 공격이 시작되면서 기사는 검을 원형 동작으로 앞으로 휘두르며, 검이 바깥쪽으로 뻗어진 후속 자세로 전환한다. 시퀀스는 그 다음 다양한 회복 프레임을 순환하며 기사가 초기 준비 자세로 돌아오는 모습을 보여준다. 애니메이션은 이러한 자세들 사이를 반복하며 픽셀 아트 애니메이션 특유의 일관된 리듬을 유지한다. 기본적인 검 동작과 기사의 자세 변화 외에는 추가적인 시각 효과가 없다. |
| Keye | The video features a pixel art character with vibrant red hair and large, expressive eyes. The character is dressed in dark armor with gold accents, giving a sense of a warrior or knight. They are holding a sword, which they wield in various dynamic poses. The animation style is reminiscent of classic video games, with each frame showing the character in different stages of movement, such as swinging the sword, preparing to strike, and recovering from the attack. The background is plain black, which makes the character stand out prominently. The pixel art details are clear, with each element of the character’s design, including the hair, clothing, and weapon, being distinctly visible. The overall impression is of an action-packed sequence, likely from a video game, showcasing the character’s combat abilities. | 생생한 빨간 머리와 크고 표현력 있는 눈을 가진 픽셀 아트 캐릭터를 보여준다. 캐릭터는 금색 악센트가 있는 어두운 갑옷을 입고 있어 전사나 기사의 감각을 준다. 그들은 다양한 역동적인 자세로 휘두르는 검을 들고 있다. 애니메이션 스타일은 고전 비디오 게임을 연상시키며, 각 프레임이 검을 휘두르고, 타격을 준비하고, 공격에서 회복하는 등 다양한 움직임 단계에서 캐릭터를 보여준다. 배경은 평범한 검은색으로, 캐릭터를 두드러지게 만든다. 픽셀 아트 세부사항은 명확하며, 머리카락, 의복, 무기를 포함한 캐릭터 디자인의 각 요소가 뚜렷하게 보인다. 전체적인 인상은 아마도 비디오 게임에서 나온 액션으로 가득한 시퀀스로, 캐릭터의 전투 능력을 보여준다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle - Skill animation. The character, a small knight with a green hat and armor, is shown in a dynamic pose, likely mid-execution of a special move. The animation cycles through three frames, showing the character from different angles as they perform the skill. The knight’s arms are extended outward, and their legs are slightly bent, suggesting a powerful stance. A glowing green aura surrounds the character, emphasizing the energy of the skill. The animation loops between these three poses, maintaining a consistent rhythm. | 픽셀 스타일 - 스킬 애니메이션. 녹색 모자와 갑옷을 입은 작은 기사가 특수 기술을 실행하는 중으로 보이는 역동적인 자세로 나타난다. 애니메이션은 캐릭터가 스킬을 수행하는 모습을 다른 각도에서 보여주는 세 개의 프레임을 순환한다. 기사의 팔이 바깥쪽으로 뻗어 있고 다리가 약간 구부러져 있어 강력한 자세를 시사한다. 빛나는 녹색 오라가 캐릭터를 둘러싸며 스킬의 에너지를 강조한다. 애니메이션은 이 세 자세 사이를 반복하며 일관된 리듬을 유지한다. |
| Keye | The video features a pixel art animation of a chibi-style character, likely from a video game. The character appears to be a young, female figure with short, light brown hair adorned with green leaves or accessories. She is dressed in a green and brown outfit, suggesting a nature or forest theme, possibly a druid or nature-based character. The animation shows the character in a dynamic pose, as if she is casting a spell or using a special ability. A green, curved energy or magical effect is visible behind her, indicating the release of some form of power or attack. The energy effect is stylized with pixel art, matching the overall aesthetic of the character. The character’s expression and posture convey a sense of focus and determination, typical of a character in the midst of an action sequence. The pixel art style is detailed, with clear lines and vibrant colors, giving the animation a retro yet charming appearance. Overall, the video captures a moment of magical or combat-related action, highlighting the character’s ability to harness and release energy in a visually engaging manner. | 아마도 비디오 게임에서 나온 치비 스타일 캐릭터의 픽셀 아트 애니메이션을 보여준다. 캐릭터는 녹색 잎이나 액세서리로 장식된 짧은 연한 갈색 머리를 가진 젊은 여성 인물로 보인다. 그녀는 자연이나 숲 테마를 시사하는 녹색과 갈색 복장을 입고 있으며, 아마도 드루이드나 자연 기반 캐릭터일 것이다. 애니메이션은 마법을 시전하거나 특수 능력을 사용하는 것처럼 역동적인 자세의 캐릭터를 보여준다. 녹색의 휜 에너지나 마법 효과가 그녀 뒤에 보여 어떤 형태의 힘이나 공격의 방출을 나타낸다. 에너지 효과는 캐릭터의 전체적인 미학과 일치하는 픽셀 아트로 양식화되었다. 캐릭터의 표정과 자세는 액션 시퀀스 중인 캐릭터의 전형인 집중과 결의의 감각을 전달한다. 픽셀 아트 스타일은 명확한 선과 생생한 색상으로 세밀하여 애니메이션에 레트로하면서도 매력적인 외모를 준다. 전체적으로 비디오는 마법이나 전투 관련 행동의 순간을 포착하여 시각적으로 매력적인 방식으로 에너지를 활용하고 방출하는 캐릭터의 능력을 강조한다. |

| MODEL | EN | KO |
|---|---|---|
| Qwen | PixelStyle attack animation. The character, adorned in ornate golden armor with intricate patterns, wields a large, curved sword. The animation begins with the knight in a ready stance, sword held high. As the sequence progresses, the knight swings the sword downward in a sweeping arc, culminating in a powerful strike. The sword’s blade glows with a fiery aura, emphasizing the impact of the blow. The knight’s posture shifts slightly during the swing, maintaining balance while executing the attack. The animation ends with the sword returning to its initial raised position, completing the cycle. The frames transition smoothly, showcasing the fluidity of the pixel art animation. | 픽셀 스타일 공격 애니메이션. 정교한 무늬가 있는 화려한 금색 갑옷을 입은 캐릭터가 크고 휜 검을 휘두른다. 애니메이션은 검을 높이 든 준비 자세의 기사에서 시작한다. 시퀀스가 진행되면서 기사는 검을 휘는 호를 그리며 아래로 휘둘러 강력한 타격으로 절정에 달한다. 검날이 불타는 오라로 빛나며 타격의 임팩트를 강조한다. 기사의 자세가 휘두르는 동안 약간 변하며 공격을 실행하면서 균형을 유지한다. 애니메이션은 검이 초기 들어올린 위치로 돌아오며 사이클을 완성하는 것으로 끝난다. 프레임들이 부드럽게 전환되어 픽셀 아트 애니메이션의 유동성을 보여준다. |
| Keye | The video features a pixel art animation of a knight in a dynamic action pose. The knight is depicted with a golden armor that includes a helmet, chest plate, and shoulder guards, all intricately detailed with a mix of gold and brown hues. The knight wields a large, curved axe in their right hand, which is also rendered in a golden color with a sharp, menacing blade. The background is entirely black, which makes the knight’s golden armor and the axe stand out prominently. The animation style is reminiscent of classic video games, with a focus on pixel art that gives the character a retro, nostalgic feel. The knight appears to be in a combat stance, suggesting readiness for battle or an ongoing fight sequence. The overall composition of the image is centered, with the knight occupying the middle portion of the frame, drawing the viewer’s attention directly to the character. The animation does not show any movement or action, but the pose and the weapon suggest a moment of intense action or preparation for an attack. The use of color is limited to the golden tones of the armor and the axe, which contrasts sharply with the black background, enhancing the visual impact of the character. | 역동적인 액션 자세의 기사를 픽셀 아트 애니메이션으로 보여준다. 기사는 헬멧, 가슴 갑옷, 어깨 보호구를 포함한 금색 갑옷으로 묘사되며, 모두 금색과 갈색 색조의 혼합으로 정교하게 세밀하다. 기사는 오른손에 크고 휜 도끼를 휘두르며, 이 또한 날카롭고 위협적인 날을 가진 금색으로 렌더링되었다. 배경은 완전히 검은색으로, 기사의 금색 갑옷과 도끼를 두드러지게 만든다. 애니메이션 스타일은 캐릭터에 레트로하고 향수를 불러일으키는 느낌을 주는 픽셀 아트에 중점을 둔 고전 비디오 게임을 연상시킨다. 기사는 전투 자세에 있는 것으로 보여 전투 준비나 진행 중인 전투 시퀀스를 시사한다. 이미지의 전체 구성은 중앙에 있으며, 기사가 프레임의 중간 부분을 차지하여 시청자의 관심을 캐릭터에게 직접 끈다. 애니메이션은 어떤 움직임이나 행동을 보여주지 않지만, 자세와 무기는 강렬한 행동이나 공격 준비의 순간을 시사한다. 색상 사용은 갑옷과 도끼의 금색 톤에 제한되어 있으며, 이는 검은 배경과 날카롭게 대조되어 캐릭터의 시각적 임팩트를 향상시킨다. |
모델 성능 평가 및 최종 결론
Qwen2.5-VL-7B-Instruct 특성
- 지침 준수: 시스템 프롬프트에 따른 균일한 캡션 생성
- 묘사 방식: 간결하면서도 핵심 동작에 대한 높은 정확도
- 적용 영역: 픽셀아트 기본 캡셔닝에 적합
Keye-VL-8B-Preview 특성
- 묘사 정확도: 상대적으로 낮은 정확도, 일부 환각
- 세부 묘사: 액션과 VFX에 대한 상세한 설명 제공
- 적용 영역: 애니메이션 연출 묘사에 특화
최종 결론
픽셀아트 캡셔닝에서는 Qwen2.5-VL-7B-Instruct를 주 모델로 사용할 것으로 결정하였다.
하지만, 애니메이션 연출과 시각 효과가 중요한 경우 Keye-VL-8B-Preview를 보조 모델로 병행하여 두 캡션을 융합 활용하는 하이브리드 접근법도 고려할 만하다.