Rosette 일본어 형태소 분석 시스템키워드 추출과 인덱싱에 필수불가결한 툴
[제품 도입 효과]
|
“형태소 분석 시스템”이란 일본어 텍스트 데이터(자연어)에서 키워드를 추출하기 위하여 문장을 단어로 띄어쓰는 분석 라이브러리입니다.
Basis Technology 의 Rosette® 일본어 형태소 분석 시스템은 뛰어난 처리 성능을 비롯해 풍부한 어휘를 수록한 표준 사전과 사용하기 편리한 사용자 정의 사전 등이 특징입니다. 알찬 지원 체제도 호평을 얻고 있어 주요 검색 엔진 등에서 널리 활용되고 있습니다.
각종 상용 검색 엔진을 비롯해 오픈 소스 전체 텍스트 검색 엔진 Lucene 등에도 이용할 수 있습니다.
주요 특징:
- 분절 (띄어쓰기) / 토큰화 :
표준 사전:수록어 수는 약50만 어 (인명•지명, 기업명 등) - 사용자 정의 사전:
사용자가 신어•복합어를 등록할 수 있으며 입력이 쉬움. 복수 사전을 사용 가능 (필터링•용어 사전 등) - 품사 정보의 부여, 태깅
- 복합어의 추출•분해
- 키워드 추출, 명사구 추출
- 기본화 (동사•형용사 등 활용어의 기본형을 출력)
- 불용어(「が」「を」「に」 등)의 검지
- JIS 제3, 제4수준의 문자에 대응
- 가타카나 표기 변화 대응 (약 9,000어)
예: ダンスセラピー ← ダンスセラピ/ダンステラピー
ファミコン ← ファミリーコンピュータ/ファミリーコンピューター
ベネチア ← ベニス/ベネツィア/ヴェネチア/ヴェネツィア 등 - 한자의 구자체 지원 (약 89,000 어)
예: 渡辺 ← 渡邊
大学 ← 大學
高島 ← 髙島 등

