China Asean Language Intelligence Institute는 독립적으로 다국어 코퍼스를 구축합니다.
최근 인공 지능 및 자연어 처리 기술의 빠른 발전으로 다국어 코퍼스의 건설은 언어 간 커뮤니케이션 및 기술 혁신을 촉진하는 데 중요한 기초가되었습니다. China Asean Research Institute of Language Intelligence (이하 "Institute")는 최근 중국과 아세안 국가 간의 언어 상호 운용성, 문화적 보급 및 지능형 기술 협력을 촉진하는 10 개의 아세안 국가의 주요 언어를 다루는 다국어 코퍼스를 성공적으로 구축했다고 발표했습니다.
이 코퍼스의 건설은 중국의 다국어 언어 자원 분야의 격차를 메울뿐만 아니라 기계 번역, 음성 인식 및 텍스트 분석과 같은 인공 지능 응용 프로그램에 대한 고품질 데이터 지원을 제공합니다. 다음은이 코퍼스의 주요 기능과 데이터에 대한 개요입니다.
언어 유형 | 코퍼스 규모 (1 억 단어) | 적용 영역 | 데이터 소스 |
---|---|---|---|
중국인 | 50 | 뉴스, 법, 과학 및 문학 | 공개 간행물, 정부 문서 |
태국 | 12 | 소셜 미디어, 뉴스, 여행 | 네트워크 크롤링 및 협력 기관에서 제공합니다 |
베트남 사람 | 10 | 경제, 문화, 교육 | 학술 논문, 뉴스 미디어 |
말레이 사람 | 8 | 비즈니스, 법률, 매일 대화 | 기업 협력, 번역 기관 |
인도네시아 인 | 8 | 뉴스, 소셜 미디어, 영화 및 텔레비전 | 공개 데이터 세트, 네트워크 크롤링 |
코퍼스 응용 시나리오
이 코퍼스의 건설은 주로 다음을 포함하는 여러 분야의 응용 프로그램을 기본적으로 지원합니다.
1.기계 번역: 고품질 다국어 평행 코퍼스를 통해이 연구소는 중국-영어, 중국-테일랜드 및 중국-베트남과 같은 언어 쌍을 지원하는 번역 모델을 교육했으며 번역 정확도가 크게 향상되었습니다.
2.음성 인식: 코퍼스의 음성 데이터는 ASEAN 국가의 음성 인식 시스템에 대한 교육 자료를 제공하여 지능형 음성 비서 및 고객 서비스 시스템과 같은 응용 프로그램을 개발하는 데 도움을줍니다.
3.언어 간 정보 검색: 사용자는 중국어 키워드를 통해 아세안 언어로 관련 컨텐츠를 검색 할 수 있으며, 이는 학업 연구 및 상업 정보 습득을 크게 용이하게합니다.
4.문화 커뮤니케이션 및 연구: 코퍼스의 문헌, 영화 및 텔레비전 콘텐츠는 문화 학자에게 풍부한 분석 자료를 제공하고 중국과 아세안 국가 간의 문화 교류를 촉진합니다.
향후 계획
이 연구소는 미래에 코퍼스의 규모와 언어 유형이 더욱 확장 될 것이라고 말했다. 동시에, 연구소는 아세안 국가의 학술 기관 및 기업과 협력하여 코퍼스의 공개 공유를 촉진하고 글로벌 언어 인텔리전스 연구에 기여할 것입니다.
이 다국어 코퍼스의 건설은 China Asean Institute of Langu 인공 지능 기술의 지속적인 발전으로 다국어 코퍼스의 응용 전망이 더 넓을 것입니다.
세부 사항을 확인하십시오
세부 사항을 확인하십시오