jueves, 13 de septiembre de 2018

La era de la confianza ciega en la Big Data debe terminar - Arte y Cultura - IntraMed

La era de la confianza ciega en la Big Data debe terminar - Arte y Cultura - IntraMed





Los algoritmos son "opiniones" que se embeben en código | 10 SEP 18
La era de la confianza ciega en la Big Data debe terminar
Una conferencia de una matemática experta en procesamiento de datos y algoritmos que desnuda sus debilidades e incertidumbres
3
Autor: Catherine Helen O'Neil TED Ideas worth spreading
Catherine ("Cathy") Helen O'Neil es una matemática estadounidense y autora del blog mathbabe.org y varios libros sobre ciencia de datos, entre los que se incluye Armas de destrucción matemática. Ella fue Directora del Programa Lede en Prácticas de Datos en la Escuela de Periodismo de la Universidad de Columbia, Tow Center y trabajó como Consultora de Ciencia de datos en Johnson Research Labs. Vive en la ciudad de Nueva York con su marido Aise Johan de Jong y sus tres hijos y es activa en el movimiento Ocupy.O'Neil asistió a la Universidad de Berkeley, consiguió un Ph.D. en matemáticas de la Universidad de Harvard en 1999, luego ocupó cargos en los departamentos de matemáticas del MIT y del Barnard Collage, haciendo investigación en geometría algebraica aritmética. Dejó la academia en 2007 y trabajó durante cuatro años en la industria financiera, incluyendo dos años en el fondo de cobertura D. E. Shaw. ?Después de desilusionarse del mundo de las finanzas, O'Neil se involucró en el movimiento Occupy Wall Street, participando en su Grupo Bancario Alternativo.


Transcripción

Hay algoritmos por todos lados. Ordenan y separan a los ganadores de los perdedores. Los ganadores consiguen el trabajo o buenas condiciones de crédito. A los perdedores ni siquiera se les invita a una entrevista o tienen que pagar más por el seguro. Se nos califica mediante fórmulas secretas que no entendemos y a las que no se puede apelar. Eso plantea una pregunta: ¿Qué pasa si los algoritmos se equivocan?

Un algoritmo necesita dos cosas: datos ocurridos en el pasado y una definición del éxito; esto es, lo que uno quiere y lo que desea. Los algoritmos se entrenan mirando, descubriendo. El algoritmo calcula a qué se asocia el éxito, qué situaciones llevan al éxito.

En general todos usamos algoritmos pero no los formalizamos mediante un código escrito. Les doy un ejemplo. Yo uso un algoritmo todos los días para preparar la comida en casa. Los datos que uso son los ingredientes de la cocina, el tiempo que tengo y lo ambiciosa que estoy. Y así organizo los datos. No incluyo esos paquetitos de fideos como comida.

Mi definición del éxito es: la comida tiene éxito si mis hijos comen verdura. Lo que sería muy distinto, si mi hijito tuviera el control. Para él el éxito es comer mucha Nutella. Pero yo soy quien elige el éxito. Estoy al mando. Mi opinión cuenta. Esa es la primera regla de los algoritmos.

Muchas cosas pueden salir mal si confiamos a ciegas en datos masivos
Los algoritmos son opiniones que se embeben en código. Es muy diferente a cómo la gente se imagina los algoritmos. Se creen que los algoritmos son objetivos, verdaderos y científicos. Ese en un truco del marketing. Tambien es un truco del marketing la intimidación con algoritmos, que nos hacer confiar y temer los algoritmos porque confiamos y tememos las matemáticas. Muchas cosas pueden salir mal si confiamos a ciegas en datos masivos.

Esta es Kiri Soares. Es la directora de una escuela de Brooklyn. En 2011 me contó que sus maestros se clasificaban mediante un algoritmo complejo y secreto llamado "modelo del valor añadido". Le dije, "Intente saber cuál es la fórmula, muéstremela. Se la voy a explicar". Me respondió, "Trate de conseguir la fórmula, pero un conocido del Departamento de Educación me dijo que era matemática y que no la entendería".

Esto se pone peor. El New York Post la solicitó bajo la Ley de Libertad a la Información. Obtuvo los nombres de los maestros y su puntuación y los publicó como un acto para avergonzar a los maestros. Cuando intenté conseguir las fórmulas en código base, usando el mismo mecanismo, me dijeron que no se podía. Me lo negaron.

Más tarde descubrí que nadie tenía derecho a la fórmula en Nueva York. Nadie lo podía entender. Entonces apareció un tipo muy inteligente, Gary Rubenstein. Localizó a 665 maestros por los datos del New York Post que tenían dos puntuaciones. Eso podía ocurrir si enseñaban matemática en 7º y 8º grado. Decidió hacer un gráfico. Donde cada punto representa a un maestro.

Y eso ¿qué es?Eso no debiera haberse usado nunca para evaluar a una persona. Es casi un generador de números al azar.

Pero lo fue. Esta es Sarah Wysocki. La echaron junto a otros 205 maestros de una escuela en Washington DC, a pesar de tener muy buena recomendación de la directora y de los padres de sus alumnos.Me imagino lo que estarán pensando, especialmente los cientificos de datos, los expertos en IA Pensarán "Nosotros nunca produciríamos un algoritmo tan inconsistente." Pero los algoritmos a veces fallan, y tambien provocar mucha destrucción sin querer. Y mientras un avión mal diseñado se estrella y todos lo ven, un algoritmo mal diseñado puede funcionar mucho tiempo provocando un desastre silenciosamente.

Este es Roger Ailes. Fundador de Fox News en el 1996. Mas de 20 mujeres se quejaron de acoso sexual. Dijeron que no pudieron tener éxito en Fox News. Lo echaron el año pasado, pero hemos visto que hace poco los problemas han continuado. Esto plantea una pregunta: ¿Qué debe hacer Fox News para cambiar?

Y si substituyeran su mecanismo de contratación con un algoritmo de auto- aprendizaje automatizado? ¿Suena bien? Piénsenlo, Los datos, ¿qué datos serían? Una eleccion razonable serian las últimas 21 solicitudes recibidas por Fox News Razonable.

Y ¿cuál sería la definición del éxito? Algo razonable sería preguntar, quién es exitoso en Fox News. Me imagino que alguien que hubiera estado alli unos 4 años y subido de puesto por lo menosuna vez. ¿Suena razonable? Y así se adiestraría el algoritmo. Se adiestraría para buscar a gente que logra el éxito. Y qué solicitudes antiguas llegaron al éxito según esa definición. Ahora piensen que ocurriría si lo usáramos con los candidatos de hoy. Filtraría a las mujeres ya que no parecen ser personas que hayan tenido éxito en el pasado.

Los algoritmos no son justos si uno usa algoritmos a ciegas. No son justos. Repiten prácticas anteriores, nuestros patrones. Automatizan al status quo. Sería genial en un mundo perfecto, pero no lo tenemos. Y aclaro que la mayoria de las empresas no estan involucradas en litigios, pero los cientificos de datos de esas empresas emplean esos datos para lograr la precisión. Piensen qué significa esto. Porque todos tenemos prejuicios, y así podríamos codificar sexismo u otro tipo de fanatismo.

Un experimento de pensamiento, porque me gusta, una sociedad totalmente segregada. segregada racialmente, todas las ciudades y los barrios y donde enviamos a la policia solo a barrios minoritarios para detectar delitos. Los arrestos serían sesgados. Y, además, elegimos a los cientificos de datos y pagamos por los datos para predecir dónde ocurrirán los próximos delitos. El barrio de una minoría. O a predecir quien será el próximo criminal. Una minoría. Los cientificos de datos se jactarían de su grandeza y de la precisión de su modelo, y tendrían razón.

La realidad no es tan drástica, pero tenemos grandes segregaciones en muchas ciudades y tenemos muchas pruebas de datos políticos y legislativos sesgados. Y podemos predecir puntos calientes, lugares donde podrá ocurrir un delito Y así predecir un crimen individual y la criminalidad de los individuos.

El organismo de noticias ProPublica lo estudió hace poco. un algoritmo de "riesgo recidivista" según los llaman usado en Florida al hacer sentencias judiciales. Bernardo, a la izquierda, un hombre negro sacó una puntuación de 10 de 10. Dylan, a la derecha, 3 de 10. 10 de 10, alto riesgo 3 de 10, bajo riesgo. Los sentenciaron por tener drogas. Ambos con antecedentes penales pero Dylan habia cometido un delito Bernard, no. Esto importa porque a mayor puntuación mayor probabilidad de una sentencia más larga.

¿Que sucede?

Nosotros somos los prejuiciosos que inyectamos prejuicios a nuestros algoritmos al elegir qué datos recoger
Lavado de datos. El proceso que se usa para ocultar verdades feas dentro de una caja negra de algoritmos y llamarlos objetivos; llamándolos meritocráticoscuando son secretos, importantes y destructivos Les puse un nombre a estos algoritmos: "armas matemáticas de destrucción"

Están en todos sitios Son empresas privadas que construyen algoritmos privados para fines privados. Incluso los mencionados de los maestros y la policía pública fueron diseñados por empresas privadas y vendidos a instituciones gubernamentales. Lo llaman su "salsa secreta" por eso no nos pueden hablar de ello. Es un poder privado que saca provecho por su autoridad inescrutable. Entonces uno ha de pensar, ya que todo esto es privado y hay competición, tal vez un mercado libre podrá solucionarlo Pero no. Se puede ganar mucho dinero con la injusticia.Tampoco somos agentes económicos racionales. Todos tenemos prejuicios Somos racistas y fanáticos de una forma que no quisiéramos, de maneras que desconocemos. Lo sabemos al sumarlo porque los sociólogos lo han demostrado consistentemente con experimentos que construyeron donde mandan una cantidad de solicitudes de empleo de personas de calificaciones iguales pero algunas con apellidos blancos y otras con apellidos negros, y los resultados siempre los decepcionan, siempre.

Nosotros somos los prejuiciosos que inyectamos prejuicios a nuestros algoritmos al elegir qué datos recoger, así como yo elegí no pensar en los fideos-- Y decidi que no era importante. Pero tenerle confianza a los datos basados en prácticas pasadas y eligiendo la definición del éxito, ¿cómo pretendemos que los algoritmos emerjan intactos? No podemos. Tenemos que verificarlos. Hay que revisarlos por equidad.

Y las buenas noticias son que los algoritmos pueden ser interrogados, y nos dirán la verdad todas las veces. Y los podemos arreglar. Y mejorarlos. Lo explico. Esto se llama revisión del algoritmo, lo explico.

Primero, verificación de integridad de datos. por el riesgo recidivista. La verificación de la integridad de datos implicaría una conciliación que en EE. UU. los blancos y los negros fuman marihuana pero a los negros es mas fácil que los arresten más probablemente cuatro o cinco veces más dependiendo de la zona. Y ¿cómo son los prejuicios en otras categorías criminales, y cómo lo justificamos?

Segundo, debemos pensar en la definición del éxito, revisarla. ¿Recuerdan el algoritmo de la contratación? alguien que se queda cuatro años y asciende de cargo una vez? Ese es el empleado exitoso, pero tambien es el empleado apoyado por la cultura. Esto puede ser bastante injusto. Tenemos que separar dos cosas.

Mirar a la audicion de una orquesta de ciegos por ejemplo. Los que dan la audición están detrás de la partitura. Lo que quiero que piensen es que la gente que escucha decide lo que es importante y lo que no lo es, sin que eso nos distraiga. Cuando empezaron las audiciones de orquesta de ciegos la cantidad de mujeres aumentó un factor de cinco veces.

Tambien hay que pensar en la precisión y así el modelo del valor añadido fallaría. Por supuesto ningún algoritmo es perfecto, asi que hay que considerar los errores de cada algoritmo. ¿Qué frecuencia tienen los errores y con quiénes falla? Y ¿cuál es el costo de dicha falla?

Y por último, tenemos que considerar los efectos a largo plazo de los algoritmos, los bucles de retroalimentación que engendran. Eso suena a abstracto. Pero imagínese si los ingenieros de Facebook lo hubieran considerado antes de mostrarnos cosas publicadas por nuestros amigos.

La era de la fe ciega en los datos masivos debe terminar
Tengo dos mensajes, uno para los científicos de datos. Cientificos de datos: no debemos ser los árbitros de la verdad. Debemos ser tradutores de las discusiones éticas que ocurren en toda la sociedad.

Y para el resto de Uds. los que no son científicos de datos: esta no es un examen de matemáticas. Es una lucha politica. Tenemos que exigir responsabilidad a los lores de los algoritmos.La era de la fe ciega en los datos masivos debe terminar.

Muchas gracias.

No hay comentarios:

Publicar un comentario