샘플 실행해보기

로컬 개발환경

  • imac 2019

  • no gpu

  • docker,docker-compose

Project 생성하기

github에 project를 생성하고 클론한다.

Dockerfile 생성

모든 작업은 docker로 실행될 예정이므로 로컬 컴퓨터에 도커를 설치한다.

https://docs.docker.com/engine/install/

Dockerfile 생성

프로젝트 폴더에 Dockerfile을 생성한다.

vi Dockerfile
FROM python:3.9

WORKDIR /code

RUN apt update
RUN apt install ffmpeg -y
RUN pip install --upgrade pip

RUN pip install openai-whisper==20230314
RUN pip install setuptools-rust==1.5.2

COPY ./app /code/app

간단히 설명하면 python 3.9를 실행하고 whisper를 설치한후 app 폴더를 카피해서 컨테이너 이미지로 만든다.

app folder 생성후 main.py 생성

mp3파일을 준비한후 다음을 만든다.

mkdir ./app
vi ./app/main.py
import whisper
import torch

model = whisper.load_model("tiny")
file = "app/audio/kr.mp3" # mp3파일 경로를 넣어준다.
result = model.transcribe(file)
print(result["text"])

간단히 설명하면 라이브러리를 로드하고 파일을 로드한후 transcribe를 한후 프린트한다.

실행

이제 mp3가 글자로 바뀌어지는지 테스트해보자.

docker-compose.yml을 사용하여 실행할 예정이다.

vi docker-compose.yml
version: '3.9'
services:
  python:
    build: .
    volumes:
      - ./app:/app
    working_dir: /app
    command: python3 main.py
docker-compose up --build

간단히 설명하면 컨테이너 이미지를 로드하고 실행시 main.py를 실행.

패키지 다운과 설치가 좀 시간이 걸린다. 나에 경우에는 도커이미지를 빌드하는데 20분정도가 걸렷다.

한번만 하고나면 다음번에는 캐싱을 사용하여 좀 빠르다.

실행하고 나면 모델을 다운로드 받는다. 이것도 모델을 large등을 사용하면 다운로드가 오래 걸린다.

잘 나온다.

놀랍다...python코드 몇줄에 음성인식을 할수 있다니...

일단 여기서 끝

git repo

https://github.com/teamsmiley/my-whisper

tag : v0.1

이걸 사용하면 관련 코드를 볼수 있다.

Last updated

Was this helpful?