Proxecto Common Voice en galego

Doa a túa voz a Common Voice, o proxecto da Fundación Mozilla

http://trasno.gal/download/Trasno_CV-Colector.mkv

Os voluntarios de Proxecto Trasno levamos moitos anos colaborando coa Fundación Mozilla, desde o nacemento no 2003,  e froito dese traballo todos os usuarios temos dispoñible o navegador de Internet Firefox en lingua galega,  sempre ao día coa última tecnoloxía da Web. E como esa moitas outras pezas necesarias para facer presente o noso idioma na rede.

Nos vindeiros anos, os servizos, produtos e estudos baseados na intelixencia artificial (IA) estarán por todas partes pero non poderemos interactuar en galego con eles non sendo que axudemos nisto.

Un asistente de voz, un lector de textos para persoas con necesidades especiais, asistente de condución en automóbil, un mordomo doméstico, un acompañante robótico para a vellez,… son algúns dos exemplos nos que o galego ten que estar presente, pero como podemos facer isto posible?

Para responder a esta pregunta a Fundación Mozilla creou o proxecto Common Voice. Un proxecto que quere crear unha tecnoloxía Open Source para que as máquinas que usaremos no futuro poidan entender e falar con calquera idioma do mundo. É importante que o Galego estea presente polo que desde o Proxecto Trasno estamos axudando aínda que precisamos da túa axuda!

Como podes axudarnos a que as máquinas falen e entendan galego?

O proxecto consiste en recadar un número importante de frases curtas de uso cotián para que, logo, falantes nativos galegos graven as súas voces interpretando esas frases recadadas. Todas as gravacións serán analizadas por este modelo e farán «maxicamente» que as máquinas entendan o noso prezado idioma.

Ao longo do proxecto podes axudarnos das seguintes formas:

  • Redactar frases orixinais e remitírnolas por correo a proxecto@trasno.gal. Crear 5 frases ou 50.
    No correo poñer
    Asunto: [CV] Frases para Common Voice
  • Colaborar na revisión das frases que deben estar correctamente escritas
  • Gravar as frases a viva voz, doando a túa voz co teu estilo, acento, modo e maneira de falar en galego. Ler 5 frases ou 50 ou máis, segundo poidas.

Porén hai outras tarefas nas que podes axudar:

  • Revisar as gravacións para comprobar que a gravación se entende ben e di exactamente o mesmo que o texto correspondente
  • Organizar unha quedada para recoller, revisar ou gravar pola túa conta e incorporarte ao proxecto de maneira directa
  • Difundir a iniciativa de Common Voice
  • Aproveitar a materia prima recollida para desenvolver o teu estudo, produto ou servizo (como a demo que amosamos ao fondo desta páxina).
  • Atopar fontes de textos libres en galego ou que poidan ser doados con licenza de dominio público CC0.

Que estamos facendo agora (Feb 2021)

Ola, son Martiño e busco colaboradores para o Common Voice en galego
Ola, son Martiño e busco colaboradores para o Common Voice en galego

Estamos na fase inicial do Common Voice en galego e, polo de agora o que necesitamos son máis de 5000 frases orixinais de vós, os e as falantes ou tomadas de fontes diversas.

É importante que se poidan doar con licenza de dominio público, a máis libre de todas as posibles. É dicir, non se poden extraer nin de libros nin de sitios web a non ser que teñamos permiso dos autores ou propietarios para doalas ao dominio público.

Neste momento temos recollidas 1717 (7/02/2021) porén precisamos moitas máis. Cada frase debe ser revisada por varias persoas, de modo que se garanta a súa corrección e pertinencia en galego. Contacta con nós en proxecto@trasno.gal ou date de alta directamente no sistema de recollida das frases.

En canto teñamos máis de 5000 frases validadas, abrirase a fase de gravación. Durante o proceso seguiremos recollendo máis frases pero ao mesmo tempo iremos cubrindo o obxectivo de 1000 horas de fragmentos de son necesarios para que a intelixencia artificial do DeepSpeech poida crear o modelo de lingua galega creado con intelixencia artificial.

Antes diso, dúas veces ao ano desde Common Voice irán creándose as coleccións de datos (datasets) que xuntarán os textos e as voces doadas, mantendo sempre o anonimato dos doadores e que permitirán crear xa aplicacións de menores requisitos: sistemas de navegación de automóbil, transcritores de voz a texto (STT) e mesmo os sintetizadores de voz (TTS), sistemas de ensino do idioma oral,  dos que tedes exemplos máis abaixo.

Os datasets estarán sempre abertos, libres e en crecemento porque son un ben común de dominio público, de todas e todos os que colaboramos.

Queres poñerte en contacto con nós?

Máis info: https://commonvoice.mozilla.org/gl/faq

Notas:
Un exemplo de frases (máximo 14 palabras por frase con sentido)

Cal é o contrasinal?
Fago de menos as discotecas
As filloas sábencheme ben desta vez!
Normalmente comemos cocido os domingos
O luns toca caldo
Vaime mal o wifi
Sabes se hoxe vai frío na Lanzada?
Ei, como andas?
Estou da máscara ata o carallo!
A miña irmá estuda o Grao en Enxeñaría da Enerxía en Vigo
Non o sei, a verdade.
Está sempre chorando polos cartos
Non teño nin idea
Que series ves en Netflix?
Non teño aínda moi claro o que facer
Xogámoslle unha partida ás cartas?
Cantoulle as corenta
Tes que ir máis amodo
Non corras tanto!
A que hora é a cea?

Minidemo (unha pequena aplicación que pasa voz a texto en calquera sistema)

Como funciona un sistema TTS (de texto a galego sintetizado) como sistema de accesibilidade: Cotovía sobre Ubuntu

Punto Gal e Proxecto Trasno xuntan forzas para a presentación no Culturgal do Firefox 64

Proxecto Trasno leva agora uns anos colaborando coa Asociación PuntoGal co fin de fomentar a visibilidade do galego na Internet. O dominio é unha marca de identidade e referencia para a lingua e a sociedade galega en calquera dos seus ámbitos respecto da comunidade internacional.
A comunidade de tradutores de software libre en galego leva desde sempre sendo unha comunidade aberta e integrada no ámbito dos grandes proxectos de desenvolvemento de software libre internacionais. Case sempre formando parte de equipos plurinacionais onde representamos e promovemos a presenza do noso idioma á par de calquera outro, demostrando asemade tanto a vivacidade da nosa lingua como a súa adaptación e perfecta adaptación en calquera contexto tecnolóxico.
Doutra banda, Proxecto Trasno, promove na nosa terra o coñecemento dos valores sociais e culturais do código libre, do movemento internacional de coñecemento aberto, de compartir e colaborar como métodos que son esenciais na nova sociedade do século XXI para o progreso colectivo.
Enrique Estévez, coordinador de Mozilla galego; Manuel González, presidente de Punto Gal e Antón Méixome, presidente de Proxecto Trasno na presentación en Culturgal 2018
Mozilla, en galego:
A actualización da aplicación nas súas versións 64 e 65 :
Da interface principal, traducíronse 1.795 cadeas, 13.037 palabras, en 102 ficheiros.
Ademais abordouse de maneira excepcional a tradución da ferramenta DevTools, fundamental para desenvolvedores, deseñadores, webmásters:
Traducíronse 1.314 cadeas, 4.928 palabras, en 40 ficheiros. Traducíronse case 5.000 palabras a maiores
Para as páxinas web de Mozilla
Traducíronse 511 cadeas, 5.618 palabras, en 24 ficheiros
Descargar a versión
Para Microsoft Windows temos tamén un instalador.
Estado actual da tradución dos produtos Mozilla:

Estatísticas de descarga e uso
https://addons.mozilla.org/en-US/firefox/addon/corrector-de-galego/statistics/?last=30

https://addons.mozilla.org/en-US/firefox/addon/galician-galiza-language-pack/statistics/?last=30

Aproveitando esta actualización do navegador web máis importante en galego tamén se mellorou o sistema de creación e integración do corrector ortográfico da lingua baseado en tecnoloxía Hunspell.

https://addons.mozilla.org/en-US/firefox/addon/corrector-de-galego/

 

Dicionarios de galego para Firefox e Thunderbird en probas

Corrector galego husnpell

Quedan a disposición as extensións para Firefox e Thunderbird co corrector ortográfico de galego. Trátase dunha nova versión (16.04.0) que engade novos termos engadidos no proxecto hunspell para o galego.

Trátase das versións comunidade que é a máis completa e inclúe termos suxeridos por Trasno e a versión Volga (Vocabulario ortográfico da lingua galega (VOLGa)).

Nova versión do corrector ortográfico Hunspell para o galego

Dende o Proxecto Trasno informámosvos do lanzamento dunha nova versión do corrector ortográfico Hunspell para o galego e o seu engadido para o navegador Mozilla Firefox.

Hunspell para o galego: versión 13.10 «Padre Sobreira»

A nova versión do corrector ortográfico Hunspell é a 13.10 «Padre Sobreira». Estivo baixo a coordinación de Antón Méixome e con importantes contribucións de Adrián Chaves. Con iso, temos unha moi relevante actualización do corrector e que podemos empregar xa con LibreOffice, OpenOffice, Mozilla Firefox, Mozilla Thunderbird e Google Chrome. Funciona ademais noutros aplicativos privativos, como é o caso de Mac OSX, InDesign, memoQ, Opera e SDL Trados (mais que non aconsellamos por motivos filosóficos e de bloqueo que lle fan á nosa lingua).

O corrector Hunspell é a única ferramenta de corrección ortográfica de código aberto que existe para o galego. As novidades que trae consigo esta versión son:

  • A refabricación do código de xeración do dicionario
  • Terse engadido novas fontes, especialmente derivadas da Galipedia; (toponimia e onomástica), unidades, * marcas e terminoloxía informática
  • A incorporación de suxestións da comunidade
  • Terse engadido ducias de regras de suxestións para erros frecuentes
  • A corrección de erros de morfoloxía e afinación de determinadas conxugacións verbais
  • Unha completa recollida de datos históricos sobre o desenvolvemento

Como se instala?

Descárgase dende aquí: obter o corrector (arquivo zip).

En LibreOffice ou OpenOffice engádese o corrector como unha extensión máis. En LibreOffice Word teríamos que facer clic en “Ferramentas” -> “Xestión de extensións” e seleccionar o ficheiro descargado antes (hunspell-gl-13-10.oxt.zip). Nese momento realízase a instalación. Comprobade que no Xestor de extensións o corrector estea activado e que cando se queira usar o corrector que a lingua do documento sexa o galego (na barra inferior da xanela de LibreOffice e OpenOffice indícase a lingua do documento).

Engadido para Mozilla Firefox

Grazas ao traballo de damufo podemos instalar o engadido para Mozilla Firefox e termos a esta nova versión do corrector traballando no noso navegador web.

Achéganos as dúas versións deste lanzamento: a “comunidade” que inclúe achegas da comunidade e outra que só contén os termos recollidos polo VOLGa (Vocabulario Ortográfico da Lingua Galega). Están dispoñibles para descargar aquí:

Pode ser de utilidade para os ususarios que queiran ter as dúas versións do corrector instaladas, facerse co Dictionary Switcher para poder intercambiar o modelo de corrección que necesitamos.

Véxase Colección de complementos prácticos para o galego

Paquete .deb para instalación automática en sistemas operativos da familia Debian

En preparación da man de Fran Diéguez e que estarán dispoñíbeis no repositorio de código libre SourceForge:

Como nos podes axudar?

O Proxecto Trasno é unha comunidade aberta, nada no ano 1999, que nos adicamos a traducir o software libre á lingua galega. Ademais disto, realizamos algúns proxectos de desenvolvemento, como xestores de memorias de tradución ou a mellora do corrector ortográfico. Quéreste unir a nós?

En canto ao corrector ortográfico, as vosas achegas son moi importantes: podédesnos axudar a melloralo. Para iso,

  • Asegurádevos de instalar correctamente a última versión do corrector
  • Se atopades un erro, comprobádeo dúas veces. Acudide ao dicionario e a outras fontes bibliográficas e asegurádevos de que si que é un erro. É un termo que aparece marcado como un erro pero non o é?. Ou o contrario, é un termo que o corrector non o subliña pero que si que o é?.
  • Se hai ese erro informádenos del escribindo ao correo “proxecto (at) trasno.gal” ou directamente dende as nosas redes socias. Dádenos a información completa: dicídemos a frase na que descubristes ese erro ou definide o termo que vexades que falta.

Con iso, nas seguintes versións do corrector mellorarémolo grazas ás vosas achegas.

Ligazóns

Antón Méixome: “Versión 13.10 do corrector ortográfico hunspell para galego”
Blogue de Dani: “Corrector de Galego VOLGA 13.10.0”
Proxecto en Github
Páxina wiki do corrector

1 2