1. SentenceBERT 모델 로드하기
모델을 불러오고 sentences를 넣어서 encode를 통해 문장들이 어떻게 바뀌는 지 확인해본다.
2. 데이터셋 로드(https://aihub.or.kr/opendata/keti-data/recognition-laguage/KETI-02-006)
데이터를 로드하고 head()를 통해 상위 5가지 데이터를 확인하면 챗봇에 NaN이란 데이터가 있고, Unnamed:3이라는 열이 있는 것을 볼 수 있다.
데이터 전처리를 통해 Unnamed:3 열과 널 값을 없애준다.
3. 전처리
Unnamed:3열이 없어진 것을 볼 수 있다.
널값이 다 사라짐!
4. 유저 대화내용 인코딩
유저 대화 내용을 모두 인코딩해서 판다스의 새로운 칼럼에 저장하는 과정을 거칠 것임
그리고 그 결과를 wellness_dataset.csv에 저장하면 새로운 데이터 셋을 얻을 수 있다.
5. 간단한 챗봇
간단한 챗봇을 만들어서 실행해보면 이렇게 된다 !
6. 챗봇만들기 !
import할 라이브러리를 모두 다운 받고
chatbot.py를 실행하면 된다.
-> cmd에서 실행해봤지만 뭔가 오류가 나면서 실패했다..
유튜브 댓글을 보니까 나와비슷한 오류를 경험한 사람들이 있는 것 같은데,
1. streamlit의 오류- 웹으로 실행시켜야한다 ... 어쩌구.. 오류가 발생함
2. session_state에는 [generated], [past] 키값이 없다- 너 이거 만들었니? 라는 오류가 발생함
코드를 보면 이 부분이 있는데.. 어째서 문제가 생기는지 이해를 못함 ㅠㅠ
장렬히 실패 !
참고 영상: https://www.youtube.com/watch?v=VVArHrsxrYU&t=295s
학습데이터 출처: AI Hub - https://aihub.or.kr/
AI-Hub
자세히보기 AI 허브가 추천하는 검색어입니다. 태그를 클릭하여 검색결과를 확인하세요.
aihub.or.kr
'프로젝트 > 캡스톤' 카테고리의 다른 글
chatgpt를 활용한 챗봇에 기능추가하기, 관련연구찾기 (0) | 2023.04.03 |
---|---|
주제 정하기 (1) | 2023.04.03 |