로컬 AI Open WebUI와 Ollama 설치하고 챗봇 연동하기
Open WebUI와 Ollama가 만드는 로컬 AI 환경의 매력
최근에는 개인 PC에서 직접 AI 모델을 구동하는 로컬 LLM 환경을 세팅하는 분들이 부쩍 늘고 있습니다.
외부 API 요금 걱정 없이 내 GPU 자원만으로 마음껏 테스트해 볼 수 있다는 점이 가장 큽니다.
그중에서도 Ollama와 Open WebUI 조합은 로컬 챗봇 UI를 꽤 완성도 있게 보여줍니다.
터미널 창에서 검은 화면만 보며 CLI로 챗봇을 쓰는 방식은 금방 한계가 오기 쉽습니다.
ChatGPT와 비슷한 화면에서 대화하고 문서 파일까지 업로드하려면 이 조합이 사실상 가장 자연스러운 선택입니다.

Open WebUI 설치를 위해 Docker가 필요한 진짜 이유
이 챗봇 환경을 제대로 쓰려면 먼저 Docker를 세팅해 두는 편이 좋습니다.
파이썬 라이브러리로 직접 실행하는 방법도 있지만, 의존성이 꼬이면 생각보다 번거롭습니다.
컨테이너 환경에서 띄우면 명령어 한 줄로 지우고 다시 설치하기도 편합니다.
로컬 호스트의 포트 충돌 문제를 다루기에도 독립된 컨테이너가 훨씬 수월합니다.
개발 환경이 꼬여서 윈도우 전체를 다시 건드리는 상황도 줄여 줍니다.

Docker를 이용한 Open WebUI 설치 Step-by-Step
이제 본격적으로 Open WebUI와 Ollama를 연결해 보겠습니다.
Step 1: Docker Desktop 설치하기
가장 먼저 컨테이너를 관리해 줄 도구가 필요합니다.
윈도우 환경이라면 Docker 공식 사이트에서 설치 파일을 받아 실행하면 됩니다.
설치가 끝나면 PC를 한 번 재부팅해야 정상적으로 가동되는 경우가 많습니다.
터미널에서 docker --version을 입력해 버전이 잘 출력되는지 확인하면 됩니다.
만약 여기서 WSL 가상화 에러가 뜨면 바이오스 설정에서 가상화 옵션이 켜져 있는지 먼저 확인해야 합니다.
Step 2: Open WebUI 컨테이너 실행하기
Docker가 준비되었으면 다음 명령어로 컨테이너를 올릴 차례입니다.
터미널을 열고 Ollama가 이미 백그라운드에 켜져 있는지 먼저 확인해 주세요.
그다음 아래 명령어를 그대로 복사해서 터미널에 붙여넣으면 설치가 시작됩니다.
이 명령은 3000번 포트로 웹 브라우저 접속을 열고, 데이터를 보존할 볼륨도 함께 생성해 줍니다.
다운로드가 완료되면 Docker Desktop 앱 목록에서 컨테이너가 정상 동작하는지 확인할 수 있습니다.
네트워크 연결 상태가 좋지 않으면 이미지 다운로드 중 타임아웃이 걸릴 수도 있습니다.
Step 3: 웹 브라우저에서 초기 계정 설정하기
설치가 끝났다면 브라우저를 열고 로컬 호스트로 접속할 시간입니다.
주소창에 localhost:3000을 입력하고 엔터를 누르면 로그인 창이 뜹니다.
처음 접속할 때는 회원가입 버튼을 눌러 관리자 이메일과 비밀번호를 등록해야 합니다.
이 계정 정보는 로컬 DB에 저장되므로 안심하고 만들 수 있습니다.
가입을 마친 뒤 로그인하면 익숙한 대화형 웹 인터페이스가 바로 열립니다.
만약 페이지를 찾을 수 없다는 에러가 나오면 Docker 컨테이너의 포트 매핑 설정을 다시 확인해야 합니다.
Ollama 연동과 첫 로컬 LLM 모델 불러오기
기본 챗봇 UI를 띄웠다면 이제 실제 머리가 될 LLM 모델을 받아야 합니다.
Docker 실행 옵션에 host.docker.internal을 넣어두었기 때문에 Ollama와 자동으로 통신할 수 있습니다.
웹 화면 왼쪽 아래 설정 메뉴에서 Ollama 연결 상태가 활성화되어 있는지 확인해 보세요.
그 상태에서 상단 모델 선택창을 누르고 원하는 로컬 LLM 이름을 입력하면 알아서 설치됩니다.
처음 시도한다면 가볍고 성능 좋은 Llama 3 8B 모델을 받아보는 걸 권합니다.
용량도 4.7GB 수준이라 일반적인 인터넷 환경에서는 비교적 빠르게 내려받을 수 있습니다.
사용하면서 겪을 수 있는 포트 충돌 및 연결 오류 해결법
로컬에서 여러 서비스를 돌리다 보면 3000번 포트가 이미 사용 중인 경우가 종종 있습니다.
이럴 때는 컨테이너 실행 명령어에서 호스트 포트 번호만 살짝 바꾸면 해결됩니다.
예를 들어 앞의 3000:8080 부분을 8080:8080이나 3001:8080으로 바꿔 다시 실행하면 됩니다.
또한 Ollama 연동 실패 에러가 뜨면 환경 변수 설정에 문제가 있을 가능성이 높습니다.
OLLAMA_NUM_PARALLEL이나 OLLAMA_HOST 설정을 시스템 환경 변수에 수동으로 추가해야 할 수도 있습니다.
설정을 바꾼 뒤에는 Ollama 앱을 완전히 종료했다가 다시 켜야 변경 사항이 반영됩니다.
GPU 가속 확인과 VRAM 용량별 추천 모델
로컬 LLM 구동에서 가장 체감이 큰 부분은 그래픽카드 가속 여부입니다.
CPU로만 모델을 돌리면 답변 속도가 초당 1~2토큰 수준이라 꽤 답답하게 느껴질 수 있습니다.
이럴 때는 작업 관리자 성능 탭에서 전용 GPU 메모리 점유율이 올라가는지 살펴보면 됩니다.
내 그래픽카드의 VRAM 용량이 8GB 이하라면 Llama 3 8B나 Phi-3 같은 소형 모델이 한계에 가깝습니다.
반대로 VRAM이 16GB 이상으로 넉넉하다면 Llama 3 70B 모델이나 Qwen 72B까지도 충분히 노려볼 만합니다.
무거운 모델일수록 한국어 코딩 답변의 질감이 달라지는 것을 체감하기 쉽습니다.
로컬 AI 환경을 구축하고 느낀 점
매달 Anthropic이나 OpenAI에 요금이 결제되는 카드 내역을 보면 솔직히 부담이 될 때가 있습니다.
Docker나 WSL 같은 설치 과정이 처음에는 조금 번거롭게 느껴져도, 한 번 세팅해 두면 비용 걱정 없는 든든한 로컬 LLM 놀이터가 생깁니다.
특히 외부에 노출되면 안 되는 개인 프로젝트 코드나 회사 내부 문서를 Open WebUI와 Ollama 환경에서 다룰 때 그 가치가 더 커집니다.
이제 내 하드웨어가 직접 받쳐 주는 프라이빗한 로컬 LLM 환경을 직접 경험해 보시길 바랍니다.
이런 글도 있어요
관련 검색어
- 🔍 Open WebUI 사용법
- 🔍 Open WebUI 비교
- 🔍 Ollama 사용법
- 🔍 Ollama 비교
- 🔍 로컬 LLM 사용법
- 🔍 로컬 LLM 비교